PyPI - inspect-ai - Versions diffs - 0.3.62__py3-none-any.whl → 0.3.64__py3-none-any.whl - Mend

inspect-ai 0.3.62py3-none-any.whl → 0.3.64py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (518) hide show

inspect_ai/_cli/cache.py +8 -7
inspect_ai/_cli/common.py +0 -12
inspect_ai/_cli/eval.py +32 -4
inspect_ai/_cli/info.py +1 -0
inspect_ai/_cli/list.py +1 -1
inspect_ai/_cli/log.py +2 -0
inspect_ai/_cli/main.py +1 -1
inspect_ai/_cli/sandbox.py +4 -1
inspect_ai/_cli/score.py +181 -32
inspect_ai/_cli/trace.py +10 -0
inspect_ai/_cli/view.py +4 -2
inspect_ai/_display/core/active.py +2 -3
inspect_ai/_display/core/config.py +7 -1
inspect_ai/_display/textual/widgets/samples.py +4 -3
inspect_ai/_display/textual/widgets/sandbox.py +6 -0
inspect_ai/_eval/eval.py +104 -101
inspect_ai/_eval/evalset.py +75 -75
inspect_ai/_eval/loader.py +122 -12
inspect_ai/_eval/registry.py +1 -1
inspect_ai/_eval/run.py +14 -0
inspect_ai/_eval/score.py +125 -36
inspect_ai/_eval/task/log.py +105 -4
inspect_ai/_eval/task/results.py +92 -38
inspect_ai/_eval/task/run.py +9 -2
inspect_ai/_eval/task/sandbox.py +35 -2
inspect_ai/_eval/task/task.py +49 -46
inspect_ai/_util/constants.py +1 -1
inspect_ai/_util/content.py +8 -0
inspect_ai/_util/error.py +2 -0
inspect_ai/_util/file.py +15 -1
inspect_ai/_util/hash.py +1 -1
inspect_ai/_util/logger.py +4 -2
inspect_ai/_util/registry.py +7 -1
inspect_ai/_view/view.py +1 -2
inspect_ai/_view/www/.vscode/extensions.json +3 -0
inspect_ai/_view/www/.vscode/settings.json +8 -0
inspect_ai/_view/www/App.css +97 -29
inspect_ai/_view/www/README.md +1 -1
inspect_ai/_view/www/dist/assets/index.css +16663 -14674
inspect_ai/_view/www/dist/assets/index.js +58808 -51348
inspect_ai/_view/www/dist/index.html +1 -1
inspect_ai/_view/www/index.html +2 -2
inspect_ai/_view/www/log-schema.json +87 -73
inspect_ai/_view/www/package.json +22 -4
inspect_ai/_view/www/postcss.config.cjs +8 -9
inspect_ai/_view/www/src/{App.mjs → App.tsx} +356 -365
inspect_ai/_view/www/src/AppErrorBoundary.tsx +47 -0
inspect_ai/_view/www/src/api/api-browser.ts +2 -2
inspect_ai/_view/www/src/api/api-http.ts +3 -5
inspect_ai/_view/www/src/api/api-vscode.ts +6 -6
inspect_ai/_view/www/src/api/client-api.ts +4 -4
inspect_ai/_view/www/src/api/index.ts +4 -4
inspect_ai/_view/www/src/api/{Types.ts → types.ts} +25 -9
inspect_ai/_view/www/src/appearance/colors.ts +9 -0
inspect_ai/_view/www/src/appearance/fonts.ts +39 -0
inspect_ai/_view/www/src/appearance/icons.ts +100 -0
inspect_ai/_view/www/src/appearance/{Styles.mjs → styles.ts} +2 -32
inspect_ai/_view/www/src/components/AnsiDisplay.tsx +198 -0
inspect_ai/_view/www/src/components/AsciinemaPlayer.tsx +86 -0
inspect_ai/_view/www/src/components/Card.css +60 -0
inspect_ai/_view/www/src/components/Card.tsx +109 -0
inspect_ai/_view/www/src/components/CopyButton.module.css +11 -0
inspect_ai/_view/www/src/components/CopyButton.tsx +58 -0
inspect_ai/_view/www/src/components/DownloadButton.css +4 -0
inspect_ai/_view/www/src/components/DownloadButton.tsx +25 -0
inspect_ai/_view/www/src/components/DownloadPanel.css +10 -0
inspect_ai/_view/www/src/components/DownloadPanel.tsx +30 -0
inspect_ai/_view/www/src/components/EmptyPanel.css +12 -0
inspect_ai/_view/www/src/components/EmptyPanel.tsx +15 -0
inspect_ai/_view/www/src/components/ErrorPanel.css +37 -0
inspect_ai/_view/www/src/components/ErrorPanel.tsx +39 -0
inspect_ai/_view/www/src/components/ExpandablePanel.css +40 -0
inspect_ai/_view/www/src/components/ExpandablePanel.tsx +115 -0
inspect_ai/_view/www/src/components/FindBand.css +49 -0
inspect_ai/_view/www/src/components/FindBand.tsx +130 -0
inspect_ai/_view/www/src/components/HumanBaselineView.css +41 -0
inspect_ai/_view/www/src/components/HumanBaselineView.tsx +162 -0
inspect_ai/_view/www/src/components/JsonPanel.css +20 -0
inspect_ai/_view/www/src/components/JsonPanel.tsx +82 -0
inspect_ai/_view/www/src/components/LabeledValue.css +20 -0
inspect_ai/_view/www/src/components/LabeledValue.tsx +41 -0
inspect_ai/_view/www/src/components/LargeModal.module.css +54 -0
inspect_ai/_view/www/src/components/LargeModal.tsx +189 -0
inspect_ai/_view/www/src/components/LightboxCarousel.css +95 -0
inspect_ai/_view/www/src/components/LightboxCarousel.tsx +132 -0
inspect_ai/_view/www/src/components/MarkdownDiv.css +3 -0
inspect_ai/_view/www/src/components/MarkdownDiv.tsx +133 -0
inspect_ai/_view/www/src/components/MessageBand.css +43 -0
inspect_ai/_view/www/src/components/MessageBand.tsx +39 -0
inspect_ai/_view/www/src/components/MorePopOver.css +0 -0
inspect_ai/_view/www/src/components/MorePopOver.tsx +67 -0
inspect_ai/_view/www/src/components/NavPills.module.css +18 -0
inspect_ai/_view/www/src/components/NavPills.tsx +101 -0
inspect_ai/_view/www/src/components/ProgressBar.module.css +37 -0
inspect_ai/_view/www/src/components/ProgressBar.tsx +22 -0
inspect_ai/_view/www/src/components/TabSet.module.css +40 -0
inspect_ai/_view/www/src/components/TabSet.tsx +215 -0
inspect_ai/_view/www/src/components/ToolButton.css +3 -0
inspect_ai/_view/www/src/components/ToolButton.tsx +27 -0
inspect_ai/_view/www/src/components/VirtualList.module.css +19 -0
inspect_ai/_view/www/src/components/VirtualList.tsx +292 -0
inspect_ai/_view/www/src/{index.js → index.tsx} +45 -19
inspect_ai/_view/www/src/{log → logfile}/remoteLogFile.ts +3 -8
inspect_ai/_view/www/src/{utils/remoteZipFile.mjs → logfile/remoteZipFile.ts} +86 -80
inspect_ai/_view/www/src/metadata/MetaDataGrid.tsx +83 -0
inspect_ai/_view/www/src/metadata/MetaDataView.module.css +35 -0
inspect_ai/_view/www/src/metadata/MetaDataView.tsx +95 -0
inspect_ai/_view/www/src/metadata/MetadataGrid.module.css +15 -0
inspect_ai/_view/www/src/metadata/RenderedContent.module.css +12 -0
inspect_ai/_view/www/src/{components/RenderedContent/RenderedContent.mjs → metadata/RenderedContent.tsx} +92 -73
inspect_ai/_view/www/src/metadata/types.ts +18 -0
inspect_ai/_view/www/src/plan/DatasetDetailView.module.css +3 -0
inspect_ai/_view/www/src/plan/DatasetDetailView.tsx +37 -0
inspect_ai/_view/www/src/plan/DetailStep.module.css +9 -0
inspect_ai/_view/www/src/plan/DetailStep.tsx +31 -0
inspect_ai/_view/www/src/plan/PlanCard.tsx +28 -0
inspect_ai/_view/www/src/plan/PlanDetailView.module.css +48 -0
inspect_ai/_view/www/src/plan/PlanDetailView.tsx +324 -0
inspect_ai/_view/www/src/plan/ScorerDetailView.module.css +3 -0
inspect_ai/_view/www/src/plan/ScorerDetailView.tsx +30 -0
inspect_ai/_view/www/src/plan/SolverDetailView.module.css +15 -0
inspect_ai/_view/www/src/plan/SolverDetailView.tsx +32 -0
inspect_ai/_view/www/src/samples/InlineSampleDisplay.module.css +8 -0
inspect_ai/_view/www/src/samples/InlineSampleDisplay.tsx +53 -0
inspect_ai/_view/www/src/samples/SampleDialog.tsx +122 -0
inspect_ai/_view/www/src/samples/SampleDisplay.module.css +29 -0
inspect_ai/_view/www/src/samples/SampleDisplay.tsx +331 -0
inspect_ai/_view/www/src/samples/SampleSummaryView.module.css +24 -0
inspect_ai/_view/www/src/samples/SampleSummaryView.tsx +177 -0
inspect_ai/_view/www/src/samples/SamplesTools.tsx +52 -0
inspect_ai/_view/www/src/samples/chat/ChatMessage.module.css +29 -0
inspect_ai/_view/www/src/samples/chat/ChatMessage.tsx +76 -0
inspect_ai/_view/www/src/samples/chat/ChatMessageRenderer.tsx +60 -0
inspect_ai/_view/www/src/samples/chat/ChatMessageRow.module.css +9 -0
inspect_ai/_view/www/src/samples/chat/ChatMessageRow.tsx +57 -0
inspect_ai/_view/www/src/samples/chat/ChatView.tsx +47 -0
inspect_ai/_view/www/src/samples/chat/ChatViewVirtualList.module.css +4 -0
inspect_ai/_view/www/src/samples/chat/ChatViewVirtualList.tsx +58 -0
inspect_ai/_view/www/src/samples/chat/MessageContent.module.css +4 -0
inspect_ai/_view/www/src/samples/chat/MessageContent.tsx +157 -0
inspect_ai/_view/www/src/samples/chat/MessageContents.module.css +3 -0
inspect_ai/_view/www/src/samples/chat/MessageContents.tsx +133 -0
inspect_ai/_view/www/src/samples/chat/messages.ts +112 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolCallView.tsx +147 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolInput.module.css +14 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolInput.tsx +76 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolOutput.module.css +19 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolOutput.tsx +60 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolTitle.module.css +4 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolTitle.tsx +18 -0
inspect_ai/_view/www/src/samples/chat/tools/tool.ts +92 -0
inspect_ai/_view/www/src/samples/descriptor/samplesDescriptor.tsx +365 -0
inspect_ai/_view/www/src/samples/descriptor/score/BooleanScoreDescriptor.module.css +22 -0
inspect_ai/_view/www/src/samples/descriptor/score/BooleanScoreDescriptor.tsx +26 -0
inspect_ai/_view/www/src/samples/descriptor/score/CategoricalScoreDescriptor.tsx +18 -0
inspect_ai/_view/www/src/samples/descriptor/score/NumericScoreDescriptor.tsx +27 -0
inspect_ai/_view/www/src/samples/descriptor/score/ObjectScoreDescriptor.module.css +18 -0
inspect_ai/_view/www/src/samples/descriptor/score/ObjectScoreDescriptor.tsx +71 -0
inspect_ai/_view/www/src/samples/descriptor/score/OtherScoreDescriptor.tsx +20 -0
inspect_ai/_view/www/src/samples/descriptor/score/PassFailScoreDescriptor.module.css +28 -0
inspect_ai/_view/www/src/samples/descriptor/score/PassFailScoreDescriptor.tsx +81 -0
inspect_ai/_view/www/src/samples/descriptor/score/ScoreDescriptor.tsx +99 -0
inspect_ai/_view/www/src/samples/descriptor/types.ts +55 -0
inspect_ai/_view/www/src/samples/error/FlatSampleErrorView.module.css +19 -0
inspect_ai/_view/www/src/samples/error/FlatSampleErrorView.tsx +22 -0
inspect_ai/_view/www/src/samples/error/SampleErrorView.module.css +17 -0
inspect_ai/_view/www/src/samples/error/SampleErrorView.tsx +31 -0
inspect_ai/_view/www/src/samples/error/error.ts +15 -0
inspect_ai/_view/www/src/samples/list/SampleFooter.module.css +9 -0
inspect_ai/_view/www/src/samples/list/SampleFooter.tsx +14 -0
inspect_ai/_view/www/src/samples/list/SampleHeader.module.css +13 -0
inspect_ai/_view/www/src/samples/list/SampleHeader.tsx +36 -0
inspect_ai/_view/www/src/samples/list/SampleList.module.css +11 -0
inspect_ai/_view/www/src/samples/list/SampleList.tsx +247 -0
inspect_ai/_view/www/src/samples/list/SampleRow.module.css +33 -0
inspect_ai/_view/www/src/samples/list/SampleRow.tsx +98 -0
inspect_ai/_view/www/src/samples/list/SampleSeparator.module.css +6 -0
inspect_ai/_view/www/src/samples/list/SampleSeparator.tsx +24 -0
inspect_ai/_view/www/src/samples/sample-tools/EpochFilter.module.css +9 -0
inspect_ai/_view/www/src/samples/sample-tools/EpochFilter.tsx +51 -0
inspect_ai/_view/www/src/samples/sample-tools/SelectScorer.module.css +16 -0
inspect_ai/_view/www/src/samples/sample-tools/SelectScorer.tsx +175 -0
inspect_ai/_view/www/src/samples/sample-tools/SortFilter.module.css +9 -0
inspect_ai/_view/www/src/samples/sample-tools/SortFilter.tsx +186 -0
inspect_ai/_view/www/src/samples/{tools/filters.mjs → sample-tools/filters.ts} +86 -81
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/SampleFilter.module.css +16 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/SampleFilter.tsx +288 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/completions.ts +346 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/language.ts +19 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/tokenize.ts +97 -0
inspect_ai/_view/www/src/samples/{SampleLimit.mjs → sampleLimit.ts} +3 -6
inspect_ai/_view/www/src/samples/scores/SampleScoreView.module.css +53 -0
inspect_ai/_view/www/src/samples/scores/SampleScoreView.tsx +168 -0
inspect_ai/_view/www/src/samples/scores/SampleScores.module.css +5 -0
inspect_ai/_view/www/src/samples/scores/SampleScores.tsx +37 -0
inspect_ai/_view/www/src/samples/transcript/ApprovalEventView.tsx +66 -0
inspect_ai/_view/www/src/samples/transcript/ErrorEventView.tsx +51 -0
inspect_ai/_view/www/src/samples/transcript/InfoEventView.module.css +3 -0
inspect_ai/_view/www/src/samples/transcript/InfoEventView.tsx +54 -0
inspect_ai/_view/www/src/samples/transcript/InputEventView.tsx +48 -0
inspect_ai/_view/www/src/samples/transcript/LoggerEventView.module.css +6 -0
inspect_ai/_view/www/src/samples/transcript/LoggerEventView.tsx +36 -0
inspect_ai/_view/www/src/samples/transcript/ModelEventView.module.css +43 -0
inspect_ai/_view/www/src/samples/transcript/ModelEventView.tsx +223 -0
inspect_ai/_view/www/src/samples/transcript/SampleInitEventView.module.css +23 -0
inspect_ai/_view/www/src/samples/transcript/SampleInitEventView.tsx +112 -0
inspect_ai/_view/www/src/samples/transcript/SampleLimitEventView.tsx +75 -0
inspect_ai/_view/www/src/samples/transcript/SampleTranscript.tsx +22 -0
inspect_ai/_view/www/src/samples/transcript/ScoreEventView.module.css +15 -0
inspect_ai/_view/www/src/samples/transcript/ScoreEventView.tsx +100 -0
inspect_ai/_view/www/src/samples/transcript/StepEventView.tsx +171 -0
inspect_ai/_view/www/src/samples/transcript/SubtaskEventView.module.css +19 -0
inspect_ai/_view/www/src/samples/transcript/SubtaskEventView.tsx +133 -0
inspect_ai/_view/www/src/samples/transcript/ToolEventView.module.css +10 -0
inspect_ai/_view/www/src/samples/transcript/ToolEventView.tsx +92 -0
inspect_ai/_view/www/src/samples/transcript/TranscriptView.module.css +49 -0
inspect_ai/_view/www/src/samples/transcript/TranscriptView.tsx +449 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNav.module.css +5 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNav.tsx +43 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNavs.module.css +3 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNavs.tsx +39 -0
inspect_ai/_view/www/src/samples/transcript/event/EventPanel.module.css +25 -0
inspect_ai/_view/www/src/samples/transcript/event/EventPanel.tsx +191 -0
inspect_ai/_view/www/src/samples/transcript/event/EventRow.module.css +13 -0
inspect_ai/_view/www/src/samples/transcript/event/EventRow.tsx +32 -0
inspect_ai/_view/www/src/samples/transcript/event/EventSection.module.css +8 -0
inspect_ai/_view/www/src/samples/transcript/event/EventSection.tsx +29 -0
inspect_ai/_view/www/src/samples/transcript/state/StateDiffView.tsx +67 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenderers.tsx +285 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenders.module.css +10 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.module.css +9 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.tsx +346 -0
inspect_ai/_view/www/src/samples/transcript/types.ts +58 -0
inspect_ai/_view/www/src/types/log.d.ts +108 -19
inspect_ai/_view/www/src/types/prism.d.ts +11 -0
inspect_ai/_view/www/src/types.ts +71 -0
inspect_ai/_view/www/src/usage/ModelTokenTable.tsx +28 -0
inspect_ai/_view/www/src/usage/ModelUsagePanel.module.css +24 -0
inspect_ai/_view/www/src/usage/ModelUsagePanel.tsx +97 -0
inspect_ai/_view/www/src/usage/TokenTable.module.css +17 -0
inspect_ai/_view/www/src/usage/TokenTable.tsx +91 -0
inspect_ai/_view/www/src/usage/UsageCard.module.css +15 -0
inspect_ai/_view/www/src/usage/UsageCard.tsx +67 -0
inspect_ai/_view/www/src/utils/attachments.ts +42 -0
inspect_ai/_view/www/src/utils/{Base64.mjs → base64.ts} +1 -6
inspect_ai/_view/www/src/{components/Browser.mjs → utils/browser.ts} +0 -1
inspect_ai/_view/www/src/utils/debugging.ts +28 -0
inspect_ai/_view/www/src/utils/dom.ts +30 -0
inspect_ai/_view/www/src/utils/format.ts +194 -0
inspect_ai/_view/www/src/utils/git.ts +7 -0
inspect_ai/_view/www/src/utils/html.ts +6 -0
inspect_ai/_view/www/src/utils/http.ts +14 -0
inspect_ai/_view/www/src/utils/{Path.mjs → path.ts} +2 -9
inspect_ai/_view/www/src/utils/{Print.mjs → print.ts} +34 -26
inspect_ai/_view/www/src/utils/queue.ts +51 -0
inspect_ai/_view/www/src/utils/sync.ts +114 -0
inspect_ai/_view/www/src/utils/{Type.mjs → type.ts} +3 -6
inspect_ai/_view/www/src/utils/vscode.ts +13 -0
inspect_ai/_view/www/src/workspace/WorkSpace.tsx +324 -0
inspect_ai/_view/www/src/workspace/WorkSpaceView.module.css +33 -0
inspect_ai/_view/www/src/workspace/WorkSpaceView.tsx +158 -0
inspect_ai/_view/www/src/workspace/error/TaskErrorPanel.module.css +3 -0
inspect_ai/_view/www/src/workspace/error/TaskErrorPanel.tsx +28 -0
inspect_ai/_view/www/src/workspace/navbar/Navbar.module.css +54 -0
inspect_ai/_view/www/src/workspace/navbar/Navbar.tsx +68 -0
inspect_ai/_view/www/src/workspace/navbar/PrimaryBar.module.css +52 -0
inspect_ai/_view/www/src/workspace/navbar/PrimaryBar.tsx +114 -0
inspect_ai/_view/www/src/workspace/navbar/ResultsPanel.module.css +90 -0
inspect_ai/_view/www/src/workspace/navbar/ResultsPanel.tsx +180 -0
inspect_ai/_view/www/src/workspace/navbar/SecondaryBar.module.css +28 -0
inspect_ai/_view/www/src/workspace/navbar/SecondaryBar.tsx +226 -0
inspect_ai/_view/www/src/workspace/navbar/StatusPanel.module.css +14 -0
inspect_ai/_view/www/src/workspace/navbar/StatusPanel.tsx +61 -0
inspect_ai/_view/www/src/workspace/sidebar/EvalStatus.module.css +15 -0
inspect_ai/_view/www/src/workspace/sidebar/EvalStatus.tsx +71 -0
inspect_ai/_view/www/src/workspace/sidebar/LogDirectoryTitleView.module.css +5 -0
inspect_ai/_view/www/src/workspace/sidebar/LogDirectoryTitleView.tsx +56 -0
inspect_ai/_view/www/src/workspace/sidebar/Sidebar.module.css +68 -0
inspect_ai/_view/www/src/workspace/sidebar/Sidebar.tsx +85 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarLogEntry.module.css +29 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarLogEntry.tsx +95 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoreView.module.css +23 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoreView.tsx +43 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoresView.module.css +35 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoresView.tsx +63 -0
inspect_ai/_view/www/src/workspace/tabs/InfoTab.module.css +0 -0
inspect_ai/_view/www/src/workspace/tabs/InfoTab.tsx +70 -0
inspect_ai/_view/www/src/workspace/tabs/JsonTab.module.css +5 -0
inspect_ai/_view/www/src/workspace/tabs/JsonTab.tsx +46 -0
inspect_ai/_view/www/src/workspace/tabs/SamplesTab.tsx +204 -0
inspect_ai/_view/www/src/workspace/tabs/grouping.ts +195 -0
inspect_ai/_view/www/src/workspace/tabs/types.ts +19 -0
inspect_ai/_view/www/src/workspace/types.ts +10 -0
inspect_ai/_view/www/src/workspace/utils.ts +34 -0
inspect_ai/_view/www/tsconfig.json +23 -9
inspect_ai/_view/www/vite.config.js +8 -17
inspect_ai/_view/www/yarn.lock +627 -556
inspect_ai/approval/_approval.py +2 -0
inspect_ai/approval/_approver.py +4 -4
inspect_ai/approval/_auto.py +1 -1
inspect_ai/approval/_human/approver.py +3 -0
inspect_ai/approval/_policy.py +5 -0
inspect_ai/approval/_registry.py +2 -2
inspect_ai/dataset/_dataset.py +64 -37
inspect_ai/dataset/_sources/__init__.py +0 -0
inspect_ai/dataset/_sources/csv.py +20 -12
inspect_ai/dataset/_sources/file.py +4 -0
inspect_ai/dataset/_sources/hf.py +39 -29
inspect_ai/dataset/_sources/json.py +17 -9
inspect_ai/log/__init__.py +2 -0
inspect_ai/log/_convert.py +3 -3
inspect_ai/log/_file.py +24 -9
inspect_ai/log/_log.py +101 -13
inspect_ai/log/_message.py +4 -2
inspect_ai/log/_recorders/file.py +4 -0
inspect_ai/log/_recorders/json.py +5 -7
inspect_ai/log/_recorders/recorder.py +3 -0
inspect_ai/log/_transcript.py +19 -8
inspect_ai/model/__init__.py +2 -0
inspect_ai/model/_cache.py +39 -21
inspect_ai/model/_call_tools.py +4 -3
inspect_ai/model/_chat_message.py +14 -4
inspect_ai/model/_generate_config.py +1 -1
inspect_ai/model/_model.py +31 -24
inspect_ai/model/_model_output.py +14 -1
inspect_ai/model/_openai.py +10 -18
inspect_ai/model/_providers/anthropic.py +3 -3
inspect_ai/model/_providers/google.py +9 -5
inspect_ai/model/_providers/openai.py +5 -9
inspect_ai/model/_providers/openai_o1.py +3 -5
inspect_ai/model/_providers/openrouter.py +86 -0
inspect_ai/model/_providers/providers.py +11 -0
inspect_ai/scorer/__init__.py +6 -1
inspect_ai/scorer/_answer.py +7 -7
inspect_ai/scorer/_classification.py +38 -18
inspect_ai/scorer/_common.py +2 -8
inspect_ai/scorer/_match.py +4 -5
inspect_ai/scorer/_metric.py +87 -28
inspect_ai/scorer/_metrics/__init__.py +3 -3
inspect_ai/scorer/_metrics/accuracy.py +8 -10
inspect_ai/scorer/_metrics/mean.py +3 -17
inspect_ai/scorer/_metrics/std.py +111 -30
inspect_ai/scorer/_model.py +12 -12
inspect_ai/scorer/_pattern.py +3 -3
inspect_ai/scorer/_reducer/reducer.py +36 -21
inspect_ai/scorer/_reducer/registry.py +2 -2
inspect_ai/scorer/_reducer/types.py +7 -1
inspect_ai/scorer/_score.py +11 -1
inspect_ai/scorer/_scorer.py +110 -16
inspect_ai/solver/__init__.py +1 -1
inspect_ai/solver/_basic_agent.py +19 -22
inspect_ai/solver/_bridge/__init__.py +0 -3
inspect_ai/solver/_bridge/bridge.py +3 -3
inspect_ai/solver/_chain.py +1 -2
inspect_ai/solver/_critique.py +3 -3
inspect_ai/solver/_fork.py +2 -2
inspect_ai/solver/_human_agent/__init__.py +0 -0
inspect_ai/solver/_human_agent/agent.py +5 -8
inspect_ai/solver/_human_agent/commands/clock.py +14 -10
inspect_ai/solver/_human_agent/commands/note.py +1 -1
inspect_ai/solver/_human_agent/commands/score.py +0 -11
inspect_ai/solver/_multiple_choice.py +38 -26
inspect_ai/solver/_prompt.py +7 -7
inspect_ai/solver/_solver.py +53 -52
inspect_ai/solver/_task_state.py +80 -69
inspect_ai/solver/_use_tools.py +9 -9
inspect_ai/tool/__init__.py +4 -1
inspect_ai/tool/_tool.py +43 -14
inspect_ai/tool/_tool_call.py +6 -2
inspect_ai/tool/_tool_choice.py +3 -1
inspect_ai/tool/_tool_def.py +10 -8
inspect_ai/tool/_tool_params.py +24 -0
inspect_ai/tool/_tool_with.py +7 -7
inspect_ai/tool/_tools/__init__.py +0 -0
inspect_ai/tool/{beta → _tools}/_computer/_common.py +2 -2
inspect_ai/tool/{beta → _tools}/_computer/_computer.py +13 -5
inspect_ai/tool/_tools/_computer/_resources/tool/__init__.py +0 -0
inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_x11_client.py +1 -1
inspect_ai/tool/_tools/_computer/_resources/tool/requirements.txt +0 -0
inspect_ai/tool/_tools/_execute.py +23 -11
inspect_ai/tool/_tools/_web_browser/_resources/README.md +2 -2
inspect_ai/tool/_tools/_web_browser/_web_browser.py +5 -3
inspect_ai/tool/_tools/_web_search.py +7 -5
inspect_ai/tool/beta.py +3 -0
inspect_ai/util/_concurrency.py +3 -3
inspect_ai/util/_panel.py +2 -0
inspect_ai/util/_resource.py +12 -12
inspect_ai/util/_sandbox/docker/compose.py +23 -20
inspect_ai/util/_sandbox/docker/config.py +2 -1
inspect_ai/util/_sandbox/docker/docker.py +42 -86
inspect_ai/util/_sandbox/docker/service.py +100 -0
inspect_ai/util/_sandbox/environment.py +99 -96
inspect_ai/util/_sandbox/self_check.py +124 -16
inspect_ai/util/_subprocess.py +5 -3
inspect_ai/util/_subtask.py +15 -16
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/LICENSE +1 -1
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/METADATA +11 -6
inspect_ai-0.3.64.dist-info/RECORD +625 -0
inspect_ai/_view/www/src/Register.mjs +0 -3
inspect_ai/_view/www/src/Types.mjs +0 -38
inspect_ai/_view/www/src/appearance/Colors.mjs +0 -27
inspect_ai/_view/www/src/appearance/Fonts.mjs +0 -66
inspect_ai/_view/www/src/appearance/Icons.mjs +0 -240
inspect_ai/_view/www/src/components/AnsiDisplay.mjs +0 -184
inspect_ai/_view/www/src/components/AppErrorBoundary.mjs +0 -34
inspect_ai/_view/www/src/components/AsciiCinemaPlayer.mjs +0 -74
inspect_ai/_view/www/src/components/Card.mjs +0 -126
inspect_ai/_view/www/src/components/ChatView.mjs +0 -441
inspect_ai/_view/www/src/components/CopyButton.mjs +0 -48
inspect_ai/_view/www/src/components/Dialog.mjs +0 -61
inspect_ai/_view/www/src/components/DownloadButton.mjs +0 -15
inspect_ai/_view/www/src/components/DownloadPanel.mjs +0 -29
inspect_ai/_view/www/src/components/EmptyPanel.mjs +0 -23
inspect_ai/_view/www/src/components/ErrorPanel.mjs +0 -66
inspect_ai/_view/www/src/components/ExpandablePanel.mjs +0 -136
inspect_ai/_view/www/src/components/FindBand.mjs +0 -157
inspect_ai/_view/www/src/components/HumanBaselineView.mjs +0 -168
inspect_ai/_view/www/src/components/JsonPanel.mjs +0 -61
inspect_ai/_view/www/src/components/LabeledValue.mjs +0 -32
inspect_ai/_view/www/src/components/LargeModal.mjs +0 -190
inspect_ai/_view/www/src/components/LightboxCarousel.mjs +0 -217
inspect_ai/_view/www/src/components/MarkdownDiv.mjs +0 -118
inspect_ai/_view/www/src/components/MessageBand.mjs +0 -48
inspect_ai/_view/www/src/components/MessageContent.mjs +0 -111
inspect_ai/_view/www/src/components/MetaDataGrid.mjs +0 -92
inspect_ai/_view/www/src/components/MetaDataView.mjs +0 -109
inspect_ai/_view/www/src/components/MorePopOver.mjs +0 -50
inspect_ai/_view/www/src/components/NavPills.mjs +0 -63
inspect_ai/_view/www/src/components/ProgressBar.mjs +0 -51
inspect_ai/_view/www/src/components/RenderedContent/ChatMessageRenderer.mjs +0 -54
inspect_ai/_view/www/src/components/RenderedContent/Types.mjs +0 -19
inspect_ai/_view/www/src/components/TabSet.mjs +0 -184
inspect_ai/_view/www/src/components/ToolButton.mjs +0 -16
inspect_ai/_view/www/src/components/Tools.mjs +0 -376
inspect_ai/_view/www/src/components/VirtualList.mjs +0 -280
inspect_ai/_view/www/src/components/ansi-output.js +0 -932
inspect_ai/_view/www/src/json/JsonTab.mjs +0 -48
inspect_ai/_view/www/src/log-reader/Log-Reader.mjs +0 -25
inspect_ai/_view/www/src/log-reader/Native-Log-Reader.mjs +0 -13
inspect_ai/_view/www/src/log-reader/Open-AI-Log-Reader.mjs +0 -263
inspect_ai/_view/www/src/navbar/Navbar.mjs +0 -418
inspect_ai/_view/www/src/navbar/SecondaryBar.mjs +0 -175
inspect_ai/_view/www/src/plan/PlanCard.mjs +0 -418
inspect_ai/_view/www/src/samples/SampleDialog.mjs +0 -123
inspect_ai/_view/www/src/samples/SampleDisplay.mjs +0 -516
inspect_ai/_view/www/src/samples/SampleError.mjs +0 -99
inspect_ai/_view/www/src/samples/SampleList.mjs +0 -427
inspect_ai/_view/www/src/samples/SampleScoreView.mjs +0 -172
inspect_ai/_view/www/src/samples/SampleScores.mjs +0 -34
inspect_ai/_view/www/src/samples/SampleTranscript.mjs +0 -20
inspect_ai/_view/www/src/samples/SamplesDescriptor.mjs +0 -771
inspect_ai/_view/www/src/samples/SamplesTab.mjs +0 -399
inspect_ai/_view/www/src/samples/SamplesTools.mjs +0 -64
inspect_ai/_view/www/src/samples/tools/EpochFilter.mjs +0 -38
inspect_ai/_view/www/src/samples/tools/SampleFilter.mjs +0 -756
inspect_ai/_view/www/src/samples/tools/SelectScorer.mjs +0 -141
inspect_ai/_view/www/src/samples/tools/SortFilter.mjs +0 -151
inspect_ai/_view/www/src/samples/transcript/ApprovalEventView.mjs +0 -71
inspect_ai/_view/www/src/samples/transcript/ErrorEventView.mjs +0 -44
inspect_ai/_view/www/src/samples/transcript/EventPanel.mjs +0 -271
inspect_ai/_view/www/src/samples/transcript/EventRow.mjs +0 -46
inspect_ai/_view/www/src/samples/transcript/EventSection.mjs +0 -33
inspect_ai/_view/www/src/samples/transcript/InfoEventView.mjs +0 -59
inspect_ai/_view/www/src/samples/transcript/InputEventView.mjs +0 -44
inspect_ai/_view/www/src/samples/transcript/LoggerEventView.mjs +0 -32
inspect_ai/_view/www/src/samples/transcript/ModelEventView.mjs +0 -216
inspect_ai/_view/www/src/samples/transcript/SampleInitEventView.mjs +0 -107
inspect_ai/_view/www/src/samples/transcript/SampleLimitEventView.mjs +0 -74
inspect_ai/_view/www/src/samples/transcript/ScoreEventView.mjs +0 -100
inspect_ai/_view/www/src/samples/transcript/StepEventView.mjs +0 -187
inspect_ai/_view/www/src/samples/transcript/SubtaskEventView.mjs +0 -133
inspect_ai/_view/www/src/samples/transcript/ToolEventView.mjs +0 -88
inspect_ai/_view/www/src/samples/transcript/TranscriptView.mjs +0 -459
inspect_ai/_view/www/src/samples/transcript/Types.mjs +0 -44
inspect_ai/_view/www/src/samples/transcript/state/StateDiffView.mjs +0 -53
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenderers.mjs +0 -254
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.mjs +0 -313
inspect_ai/_view/www/src/sidebar/Sidebar.mjs +0 -418
inspect_ai/_view/www/src/usage/ModelTokenTable.mjs +0 -72
inspect_ai/_view/www/src/usage/UsageCard.mjs +0 -159
inspect_ai/_view/www/src/utils/Format.mjs +0 -260
inspect_ai/_view/www/src/utils/Git.mjs +0 -12
inspect_ai/_view/www/src/utils/Html.mjs +0 -21
inspect_ai/_view/www/src/utils/attachments.mjs +0 -31
inspect_ai/_view/www/src/utils/debugging.mjs +0 -23
inspect_ai/_view/www/src/utils/http.mjs +0 -18
inspect_ai/_view/www/src/utils/queue.mjs +0 -67
inspect_ai/_view/www/src/utils/sync.mjs +0 -101
inspect_ai/_view/www/src/workspace/TaskErrorPanel.mjs +0 -17
inspect_ai/_view/www/src/workspace/WorkSpace.mjs +0 -516
inspect_ai/tool/beta/__init__.py +0 -5
inspect_ai-0.3.62.dist-info/RECORD +0 -481
/inspect_ai/{tool/beta/_computer/_resources/tool → _eval}/__init__.py +0 -0
/inspect_ai/{tool/beta/_computer/_resources/tool/requirements.txt → _util/__init__.py} +0 -0
/inspect_ai/_view/www/src/{constants.mjs → constants.ts} +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/__init__.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_computer_split.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/Dockerfile +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/README.md +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/entrypoint.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/novnc_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/x11vnc_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/xfce_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/xvfb_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/Code/User/globalStorage/state.vscdb +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/Code/User/settings.json +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/xfce4/xfconf/xfce-perchannel-xml/xfce4-panel.xml +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/xfce4/xfconf/xfce-perchannel-xml/xfce4-screensaver.xml +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/Desktop/Firefox Web Browser.desktop +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/Desktop/Terminal.desktop +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/Desktop/Visual Studio Code.desktop +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_logger.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_run.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_tool_result.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/computer_tool.py +0 -0
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/WHEEL +0 -0
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/entry_points.txt +0 -0
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/top_level.txt +0 -0

inspect_ai/model/_model.py CHANGED Viewed

@@ -149,7 +149,11 @@ class ModelAPI(abc.ABC):
         return "default"
     def is_rate_limit(self, ex: BaseException) -> bool:
-        """Is this exception a rate limit error."""
+        """Is this exception a rate limit error.
+        Args:
+           ex: Exception to check for rate limit.
+        """
         return False
     def collapse_user_messages(self) -> bool:
@@ -176,12 +180,18 @@ class ModelAPI(abc.ABC):
 class Model:
     """Model interface."""
+    api: ModelAPI
+    """Model API."""
+    config: GenerateConfig
+    """Generation config."""
     def __init__(self, api: ModelAPI, config: GenerateConfig) -> None:
         """Create a model.
         Args:
-           api (ModelAPI): Model API provider.
-           config (GenerateConfig): Model configuration.
+           api: Model API provider.
+           config: Model configuration.
         """
         self.api = api
         self.config = config
@@ -212,16 +222,12 @@ class Model:
         """Generate output from the model.
         Args:
-          input (str | list[ChatMessage]): Chat message
-            input (if a `str` is passed it is converted
+          input: Chat message input (if a `str` is passed it is converted
             to a `ChatMessageUser`).
-          tools (list[Tool] | list[ToolDef] | list[ToolInfo]): Tools available for the
-            model to call.
-          tool_choice (ToolChoice): Directives to the model
-            as to which tools to prefer.
-          cache (bool | CachePolicy): Caching behavior for
-            generate responses (defaults to no caching).
-          config (GenerateConfig): Model configuration.
+          tools: Tools available for the model to call.
+          tool_choice: Directives to the model as to which tools to prefer.
+          config: Model configuration.
+          cache: Caching behavior for generate responses (defaults to no caching).
         Returns:
            ModelOutput
@@ -517,7 +523,8 @@ class Model:
         ) -> None:
             # trace
             if isinstance(result, ModelOutput):
-                conversation_assistant_message(input, result.choices[0].message)
+                if result.choices:
+                    conversation_assistant_message(input, result.choices[0].message)
                 event.output = result
             else:
                 conversation_assistant_error(result)
@@ -550,7 +557,7 @@ class ModelName:
         """Create a ModelName.
         Args:
-           model: (str | Model): Model to create name for.
+           model: Model to create name for.
         """
         if isinstance(model, str):
             (api, name) = self._parse_model(model)
@@ -596,16 +603,16 @@ def get_model(
     """Get an instance of a model.
     Args:
-       model (str | Model | None): Model specification.
-         If `Model` is passed it is returned unmodified,
-         if `None` is passed then the model currently being
-         evaluated is returned (or if there is no evaluation
-         then the model referred to by `INSPECT_EVAL_MODEL`).
-       config (GenerateConfig): Configuration for model.
-       base_url (str | None): Optional. Alternate base URL for model.
-       api_key (str | None): Optional. API key for model.
-       **model_args (dict[str,Any]): Additional args to
-         pass to model constructor.
+       model: Model specification.
+          If `Model` is passed it is returned unmodified,
+          if `None` is passed then the model currently being
+          evaluated is returned (or if there is no evaluation
+          then the model referred to by `INSPECT_EVAL_MODEL`).
+       config: Configuration for model.
+       base_url: Optional. Alternate base URL for model.
+       api_key: Optional. API key for model.
+       **model_args: Additional args to
+          pass to model constructor.
     Returns:
         Model instance.

inspect_ai/model/_model_output.py CHANGED Viewed

@@ -9,6 +9,8 @@ from ._chat_message import ChatMessageAssistant
 class ModelUsage(BaseModel):
+    """Token usage for completion."""
     input_tokens: int = Field(default=0)
     """Total input tokens used."""
@@ -73,6 +75,8 @@ class Logprobs(BaseModel):
 class ChatCompletionChoice(BaseModel):
+    """Choice generated for completion."""
     message: ChatMessageAssistant
     """Assistant message."""
@@ -96,6 +100,8 @@ class ChatCompletionChoice(BaseModel):
 class ModelOutput(BaseModel):
+    """Output from model generation."""
     model: str = Field(default_factory=str)
     """Model used for generation."""
@@ -155,7 +161,14 @@ class ModelOutput(BaseModel):
         stop_reason: StopReason = "stop",
         error: str | None = None,
     ) -> "ModelOutput":
-        """Convenient method to create ModelOutput from simple text content."""
+        """Create ModelOutput from simple text content.
+        Args:
+           model: Model name.
+           content: Text content from generation.
+           stop_reason: Stop reason for generation.
+           error: Error message.
+        """
         return ModelOutput(
             model=model,
             choices=[

inspect_ai/model/_openai.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import json
+import re
 from typing import Literal
 from openai.types.chat import (
@@ -44,29 +45,13 @@ from ._model_output import ModelUsage, StopReason, as_stop_reason
 def is_o_series(name: str) -> bool:
-    return is_o1(name) or is_o3(name)
-def is_o1(name: str) -> bool:
-    return name.startswith("o1")
-def is_o3(name: str) -> bool:
-    return name.startswith("o3")
-def is_o1_full(name: str) -> bool:
-    return is_o1(name) and not is_o1_mini(name) and not is_o1_preview(name)
+    return bool(re.match(r"^o\d+", name))
 def is_o1_mini(name: str) -> bool:
     return name.startswith("o1-mini")
-def is_o3_mini(name: str) -> bool:
-    return name.startswith("o3-mini")
 def is_o1_preview(name: str) -> bool:
     return name.startswith("o1-preview")
@@ -132,10 +117,17 @@ async def openai_chat_message(
     message: ChatMessage, model: str
 ) -> ChatCompletionMessageParam:
     if message.role == "system":
-        if is_o1(model):
+        # o1-mini does not support developer or system messages
+        # (see Dec 17, 2024 changelog: https://platform.openai.com/docs/changelog)
+        if is_o1_mini(model):
+            return ChatCompletionUserMessageParam(role="user", content=message.text)
+        # other o-series models use 'developer' rather than 'system' messages
+        # https://platform.openai.com/docs/guides/reasoning#advice-on-prompting
+        elif is_o_series(model):
             return ChatCompletionDeveloperMessageParam(
                 role="developer", content=message.text
             )
+        # gpt models use standard 'system' messages
         else:
             return ChatCompletionSystemMessageParam(
                 role=message.role, content=message.text

inspect_ai/model/_providers/anthropic.py CHANGED Viewed

@@ -216,6 +216,9 @@ class AnthropicAPI(ModelAPI):
             # return output and call
             return output, model_call()
+        except BadRequestError as ex:
+            return self.handle_bad_request(ex), model_call()
         except APIStatusError as ex:
             if ex.status_code == 413:
                 return ModelOutput.from_content(
@@ -227,9 +230,6 @@ class AnthropicAPI(ModelAPI):
             else:
                 raise ex
-        except BadRequestError as ex:
-            return self.handle_bad_request(ex), model_call()
     def completion_params(self, config: GenerateConfig) -> dict[str, Any]:
         params = dict(model=self.model_name, max_tokens=cast(int, config.max_tokens))
         if config.temperature is not None:

inspect_ai/model/_providers/google.py CHANGED Viewed

@@ -5,7 +5,7 @@ import json
 from copy import copy
 from io import BytesIO
 from logging import getLogger
-from typing import Any, cast
+from typing import Any, MutableSequence, cast
 import proto  # type: ignore
 from google.ai.generativelanguage import (
@@ -553,11 +553,15 @@ def completion_choice_from_candidate(candidate: Candidate) -> ChatCompletionChoi
 def completion_choices_from_candidates(
-    candidates: list[Candidate],
+    candidates: MutableSequence[Candidate],
 ) -> list[ChatCompletionChoice]:
-    candidates = copy(candidates)
-    candidates.sort(key=lambda c: c.index)
-    return [completion_choice_from_candidate(candidate) for candidate in candidates]
+    if candidates:
+        candidates_list = sorted(candidates, key=lambda c: c.index)
+        return [
+            completion_choice_from_candidate(candidate) for candidate in candidates_list
+        ]
+    else:
+        return []
 # google doesn't export FinishReason (it's in a sub-namespace with a beta

inspect_ai/model/_providers/openai.py CHANGED Viewed

@@ -36,10 +36,8 @@ from .._model_output import (
 )
 from .._openai import (
     is_gpt,
-    is_o1_full,
     is_o1_mini,
     is_o1_preview,
-    is_o3,
     is_o_series,
     openai_chat_messages,
     openai_chat_tool_choice,
@@ -145,15 +143,9 @@ class OpenAIAPI(ModelAPI):
     def is_o_series(self) -> bool:
         return is_o_series(self.model_name)
-    def is_o1_full(self) -> bool:
-        return is_o1_full(self.model_name)
     def is_o1_mini(self) -> bool:
         return is_o1_mini(self.model_name)
-    def is_o3(self) -> bool:
-        return is_o3(self.model_name)
     def is_o1_preview(self) -> bool:
         return is_o1_preview(self.model_name)
@@ -303,7 +295,11 @@ class OpenAIAPI(ModelAPI):
             params["top_logprobs"] = config.top_logprobs
         if tools and config.parallel_tool_calls is not None and not self.is_o_series():
             params["parallel_tool_calls"] = config.parallel_tool_calls
-        if config.reasoning_effort is not None and not self.is_gpt():
+        if (
+            config.reasoning_effort is not None
+            and not self.is_gpt()
+            and not self.is_o1_mini()
+        ):
             params["reasoning_effort"] = config.reasoning_effort
         return params

inspect_ai/model/_providers/openai_o1.py CHANGED Viewed

@@ -27,11 +27,7 @@ from inspect_ai.tool import ToolCall, ToolInfo
 from .._call_tools import parse_tool_call, tool_parse_error_message
 from .._model_call import ModelCall
 from .._model_output import ModelUsage, StopReason, as_stop_reason
-from .._providers.util import (
-    ChatAPIHandler,
-    ChatAPIMessage,
-    chat_api_input,
-)
+from .._providers.util import ChatAPIHandler, ChatAPIMessage, chat_api_input
 logger = getLogger(__name__)
@@ -85,6 +81,8 @@ def handle_bad_request(model: str, ex: BadRequestError) -> ModelOutput | Excepti
         stop_reason: StopReason | None = "model_length"
     elif ex.code == "invalid_prompt":
         stop_reason = "content_filter"
+    else:
+        stop_reason = None
     if stop_reason:
         return ModelOutput.from_content(

inspect_ai/model/_providers/openrouter.py ADDED Viewed

@@ -0,0 +1,86 @@
+import os
+from typing import Any
+from typing_extensions import override
+from inspect_ai._util.error import PrerequisiteError
+from inspect_ai.model._providers.util import model_base_url
+from inspect_ai.model._providers.util.util import environment_prerequisite_error
+from .._generate_config import GenerateConfig
+from .openai import OpenAIAPI
+OPENROUTER_API_KEY = "OPENROUTER_API_KEY"
+class OpenRouterAPI(OpenAIAPI):
+    def __init__(
+        self,
+        model_name: str,
+        base_url: str | None = None,
+        api_key: str | None = None,
+        config: GenerateConfig = GenerateConfig(),
+        **model_args: Any,
+    ) -> None:
+        # api_key
+        if not api_key:
+            api_key = os.environ.get(OPENROUTER_API_KEY, None)
+            if not api_key:
+                raise environment_prerequisite_error("OpenRouter", OPENROUTER_API_KEY)
+        # base_url
+        base_url = model_base_url(base_url, "OPENROUTER_BASE_URL")
+        base_url = base_url if base_url else "https://openrouter.ai/api/v1"
+        # collect known model args that we forward to generate
+        def collect_model_arg(name: str) -> Any | None:
+            nonlocal model_args
+            value = model_args.get(name, None)
+            if value is not None:
+                model_args.pop(name)
+            return value
+        # models arg
+        self.models = collect_model_arg("models")
+        if self.models is not None:
+            if not isinstance(self.models, list):
+                raise PrerequisiteError("models must be a list of strings")
+        # providers arg
+        self.provider = collect_model_arg("provider")
+        if self.provider is not None:
+            if not isinstance(self.provider, dict):
+                raise PrerequisiteError("provider must be a dict")
+        # transforms arg
+        self.transforms = collect_model_arg("transforms")
+        if self.transforms is not None:
+            if not isinstance(self.transforms, list):
+                raise PrerequisiteError("transforms must be a list of strings")
+        # call super
+        super().__init__(
+            model_name=model_name,
+            base_url=base_url,
+            api_key=api_key,
+            config=config,
+            **model_args,
+        )
+    @override
+    def completion_params(self, config: GenerateConfig, tools: bool) -> dict[str, Any]:
+        # default params
+        params = super().completion_params(config, tools)
+        # pass args if specifed
+        EXTRA_BODY = "extra_body"
+        if self.models or self.provider or self.transforms:
+            params[EXTRA_BODY] = params.get(EXTRA_BODY, {})
+            if self.models:
+                params[EXTRA_BODY]["models"] = self.models
+            if self.provider:
+                params[EXTRA_BODY]["provider"] = self.provider
+            if self.transforms:
+                params[EXTRA_BODY]["transforms"] = self.transforms
+        return params

inspect_ai/model/_providers/providers.py CHANGED Viewed

@@ -198,6 +198,17 @@ def ollama() -> type[ModelAPI]:
     return OllamaAPI
+@modelapi(name="openrouter")
+def openrouter() -> type[ModelAPI]:
+    # validate
+    validate_openai_client("OpenRouter API")
+    # in the clear
+    from .openrouter import OpenRouterAPI
+    return OpenRouterAPI
 @modelapi(name="llama-cpp-python")
 def llama_cpp_python() -> type[ModelAPI]:
     # validate

inspect_ai/scorer/__init__.py CHANGED Viewed

@@ -10,6 +10,8 @@ from ._metric import (
     NOANSWER,
     PARTIAL,
     Metric,
+    MetricProtocol,
+    SampleScore,
     Score,
     Value,
     ValueToFloat,
@@ -18,7 +20,7 @@ from ._metric import (
 )
 from ._metrics.accuracy import accuracy
 from ._metrics.mean import mean
-from ._metrics.std import bootstrap_stderr, std, stderr
+from ._metrics.std import bootstrap_stderr, std, stderr, var
 from ._model import model_graded_fact, model_graded_qa
 from ._multi import multi_scorer
 from ._pattern import pattern
@@ -56,9 +58,12 @@ __all__ = [
     "std",
     "stderr",
     "mean",
+    "var",
     "Metric",
+    "MetricProtocol",
     "metric",
     "Score",
+    "SampleScore",
     "score",
     "Value",
     "ValueToFloat",

inspect_ai/scorer/_answer.py CHANGED Viewed

@@ -8,7 +8,7 @@ from inspect_ai._util.pattern import (
 )
 from ._metrics import accuracy, stderr
-from ._pattern import pattern
+from ._pattern import pattern as make_pattern
 from ._scorer import Scorer, scorer
@@ -33,7 +33,7 @@ class AnswerPattern(str, Enum):
 @scorer(metrics=[accuracy(), stderr()])
-def answer(type: Literal["letter", "word", "line"]) -> Scorer:
+def answer(pattern: Literal["letter", "word", "line"]) -> Scorer:
     """Scorer for model output that preceded answers with ANSWER:.
     Some solvers including multiple_choice solicit answers from
@@ -43,7 +43,7 @@ def answer(type: Literal["letter", "word", "line"]) -> Scorer:
     Note that you must specify a `type` for the answer scorer.
     Args:
-      type: (Literal["letter", "word", "line"]): Type of answer
+      pattern: Type of answer
         to extract. "letter" is used with multiple choice and
         extracts a single letter; "word" will extract the next
         word (often used for yes/no answers); "line" will take
@@ -53,10 +53,10 @@ def answer(type: Literal["letter", "word", "line"]) -> Scorer:
         with a separate line at the end.
     """
-    match type:
+    match pattern:
         case "letter":
-            return pattern(AnswerPattern.LETTER)
+            return make_pattern(AnswerPattern.LETTER)
         case "word":
-            return pattern(AnswerPattern.WORD)
+            return make_pattern(AnswerPattern.WORD)
         case "line":
-            return pattern(AnswerPattern.LINE)
+            return make_pattern(AnswerPattern.LINE)

inspect_ai/scorer/_classification.py CHANGED Viewed

@@ -12,11 +12,15 @@ from ._target import Target
 @scorer(metrics=[mean(), stderr()])
 def f1(
-    answer_fn: Callable[[str], str] | None = None,
+    answer_fn: Callable[[str], str] | None = None, stop_words: list[str] | None = None
 ) -> Scorer:
     """Scorer which produces an F1 score
     Computes the `F1` score for the answer (which balances recall precision by taking the harmonic mean between recall and precision).
+    Args:
+       answer_fn: Custom function to extract the answer from the completion (defaults to using the completion).
+       stop_words: Stop words to include in answer tokenization.
     """
     async def score(state: TaskState, target: Target) -> Score:
@@ -26,7 +30,7 @@ def f1(
         )
         targets = target.target
-        f1_score = max_f1_score(answer, targets)
+        f1_score = max_f1_score(answer, targets, stop_words=stop_words)
         return Score(
             value=f1_score,
             answer=answer,
@@ -53,12 +57,14 @@ def exact() -> Scorer:
     return score
-def max_f1_score(answer: str, targets: List[str]) -> float:
+def max_f1_score(
+    answer: str, targets: List[str], stop_words: list[str] | None = None
+) -> float:
     # Find the maximum F1 score for this answer
     max_f1 = 0.0
     for target in targets:
         if target[0].strip():
-            f1_score = compute_f1(answer, target)
+            f1_score = compute_f1(answer, target, stop_words)
             max_f1 = max(max_f1, f1_score)
     return round(max_f1, 2)
@@ -75,18 +81,16 @@ def max_exact_score(answer: str, targets: List[str]) -> float:
     return max_exact
-def compute_f1(answer: str, target: str) -> float:
+def compute_f1(answer: str, target: str, stop_words: list[str] | None = None) -> float:
     """Takes a predicted answer and a gold answer (that are both either a string or a list of strings), and returns exact match and the SQuAD F1 metric for the prediction."""
-    answer_words = _to_words(answer)
-    target_words = _to_words(target)
+    answer_words = _to_words(answer, stop_words)
+    target_words = _to_words(target, stop_words)
     return _f1(answer_words=answer_words, target_words=target_words)
-def _to_words(
-    answer: str,
-) -> set[str]:
-    normalized = _normalize(answer)
+def _to_words(answer: str, stop_words: list[str] | None = None) -> set[str]:
+    normalized = _normalize(answer, stop_words)
     token_bag = set(normalized.split())
     return token_bag
@@ -147,16 +151,32 @@ def _tokenize(text: str) -> List[str]:
     return re.split(" |-", text)
-def _normalize(answer: str) -> str:
+def _normalize(text: str, stop_words: list[str] | None = None) -> str:
     """Normalize text to remove extraneous characters and words."""
     tokens = []
-    tokenized_answer = _tokenize(answer)
+    tokenized_answer = _tokenize(text)
+    # Process stop words, if present
+    if stop_words is not None:
+        folded_stop_words = [_normalize_token(word) for word in stop_words]
+    else:
+        folded_stop_words = []
+    # Now process the text
     for token in tokenized_answer:
-        token = _remove_punc(token.casefold())
-        token = _normalize_number(token)
-        token = _remove_articles(token)
-        token = _normalize_whitespace(token)
-        tokens.append(token)
+        token = _normalize_token(token)
+        if folded_stop_words is None or token not in folded_stop_words:
+            tokens.append(token)
+    # re-join the tokens into a normalized string
     tokens = [token for token in tokens if token.strip()]
     normalized = " ".join(tokens).strip()
     return normalized
+def _normalize_token(token: str) -> str:
+    token = _remove_punc(token.casefold())
+    token = _normalize_number(token)
+    token = _remove_articles(token)
+    token = _normalize_whitespace(token)
+    return token

inspect_ai/scorer/_common.py CHANGED Viewed

@@ -25,19 +25,13 @@ def str_match_scorer(match: Callable[[str, str], tuple[str, bool]]) -> Scorer:
         for value in target:
             answer, matched = match(state.output.completion, value)
             if matched:
-                explanation = (
-                    state.output.completion
-                    if state.output.completion != answer
-                    else None
-                )
                 return Score(
                     value=CORRECT, answer=answer, explanation=state.output.completion
                 )
-        explanation = (
-            state.output.completion if state.output.completion != answer else None
+        return Score(
+            value=INCORRECT, answer=answer, explanation=state.output.completion
         )
-        return Score(value=INCORRECT, answer=answer, explanation=explanation)
     return score

inspect_ai/scorer/_match.py CHANGED Viewed

@@ -15,12 +15,11 @@ def match(
     """Scorer which matches text or a number.
     Args:
-       location (Literal["begin", "end", "any", "exact"]):
-          Location to match at. "any" matches anywhere in the
+       location: Location to match at. "any" matches anywhere in the
           output; "exact" requires the output be exactly
           equal to the target (module whitespace, etc.)
-       ignore_case (bool): Do case insensitive comparison.
-       numeric (bool): Is this a numeric match? (in this
+       ignore_case: Do case insensitive comparison.
+       numeric: Is this a numeric match? (in this
           case different punctuation removal rules are
           used and numbers are normalized before comparison).
     """
@@ -42,7 +41,7 @@ def includes(ignore_case: bool = True) -> Scorer:
     """Check whether the specified text is included in the model output.
     Args:
-       ignore_case (bool): Use a case insensitive comparison.
+       ignore_case: Use a case insensitive comparison.
     """

inspect-ai 0.3.62__py3-none-any.whl → 0.3.64__py3-none-any.whl

inspect-ai 0.3.62py3-none-any.whl → 0.3.64py3-none-any.whl