PyPI - inspect-ai - Versions diffs - 0.3.55__py3-none-any.whl → 0.3.56__py3-none-any.whl - Mend

inspect-ai 0.3.55py3-none-any.whl → 0.3.56py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (95) hide show

inspect_ai/__init__.py +1 -0
inspect_ai/_cli/common.py +1 -1
inspect_ai/_cli/trace.py +33 -20
inspect_ai/_display/core/active.py +1 -1
inspect_ai/_display/core/display.py +1 -1
inspect_ai/_display/core/footer.py +1 -1
inspect_ai/_display/core/progress.py +0 -6
inspect_ai/_display/core/rich.py +1 -1
inspect_ai/_display/rich/display.py +2 -2
inspect_ai/_display/textual/app.py +15 -17
inspect_ai/_display/textual/widgets/clock.py +3 -3
inspect_ai/_display/textual/widgets/samples.py +6 -13
inspect_ai/_eval/context.py +9 -1
inspect_ai/_eval/score.py +4 -10
inspect_ai/_eval/task/results.py +5 -4
inspect_ai/_eval/task/run.py +6 -12
inspect_ai/_eval/task/task.py +10 -0
inspect_ai/_util/ansi.py +31 -0
inspect_ai/_util/format.py +7 -0
inspect_ai/_util/logger.py +12 -12
inspect_ai/_util/throttle.py +10 -1
inspect_ai/_util/trace.py +43 -47
inspect_ai/_util/transcript.py +4 -0
inspect_ai/_util/vscode.py +51 -0
inspect_ai/_view/notify.py +2 -1
inspect_ai/_view/www/App.css +22 -1
inspect_ai/_view/www/dist/assets/index.css +2374 -2
inspect_ai/_view/www/dist/assets/index.js +29622 -24424
inspect_ai/_view/www/log-schema.json +138 -90
inspect_ai/_view/www/package.json +1 -0
inspect_ai/_view/www/src/App.mjs +1 -0
inspect_ai/_view/www/src/appearance/Icons.mjs +2 -0
inspect_ai/_view/www/src/components/AsciiCinemaPlayer.mjs +74 -0
inspect_ai/_view/www/src/components/CopyButton.mjs +0 -1
inspect_ai/_view/www/src/components/HumanBaselineView.mjs +168 -0
inspect_ai/_view/www/src/components/LightboxCarousel.mjs +217 -0
inspect_ai/_view/www/src/components/Tools.mjs +11 -3
inspect_ai/_view/www/src/samples/transcript/ModelEventView.mjs +3 -2
inspect_ai/_view/www/src/samples/transcript/TranscriptView.mjs +1 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenderers.mjs +56 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.mjs +17 -5
inspect_ai/_view/www/src/types/asciicinema-player.d.ts +26 -0
inspect_ai/_view/www/src/types/log.d.ts +26 -12
inspect_ai/_view/www/yarn.lock +44 -0
inspect_ai/approval/_apply.py +4 -0
inspect_ai/approval/_human/panel.py +5 -8
inspect_ai/dataset/_dataset.py +51 -10
inspect_ai/dataset/_util.py +31 -3
inspect_ai/log/__init__.py +2 -0
inspect_ai/log/_log.py +5 -2
inspect_ai/model/_call_tools.py +4 -2
inspect_ai/model/_chat_message.py +3 -0
inspect_ai/model/_model.py +42 -1
inspect_ai/model/_providers/anthropic.py +4 -0
inspect_ai/model/_render.py +9 -2
inspect_ai/scorer/_metric.py +12 -1
inspect_ai/solver/__init__.py +2 -0
inspect_ai/solver/_human_agent/agent.py +83 -0
inspect_ai/solver/_human_agent/commands/__init__.py +36 -0
inspect_ai/solver/_human_agent/commands/clock.py +70 -0
inspect_ai/solver/_human_agent/commands/command.py +59 -0
inspect_ai/solver/_human_agent/commands/instructions.py +74 -0
inspect_ai/solver/_human_agent/commands/note.py +42 -0
inspect_ai/solver/_human_agent/commands/score.py +80 -0
inspect_ai/solver/_human_agent/commands/status.py +62 -0
inspect_ai/solver/_human_agent/commands/submit.py +151 -0
inspect_ai/solver/_human_agent/install.py +222 -0
inspect_ai/solver/_human_agent/panel.py +252 -0
inspect_ai/solver/_human_agent/service.py +45 -0
inspect_ai/solver/_human_agent/state.py +55 -0
inspect_ai/solver/_human_agent/view.py +24 -0
inspect_ai/solver/_task_state.py +28 -2
inspect_ai/tool/_tool.py +10 -2
inspect_ai/tool/_tools/_web_browser/_web_browser.py +13 -10
inspect_ai/util/__init__.py +8 -4
inspect_ai/{_util/display.py → util/_display.py} +6 -0
inspect_ai/util/_panel.py +31 -9
inspect_ai/util/_sandbox/__init__.py +0 -3
inspect_ai/util/_sandbox/context.py +5 -1
inspect_ai/util/_sandbox/docker/compose.py +16 -10
inspect_ai/util/_sandbox/docker/docker.py +9 -6
inspect_ai/util/_sandbox/docker/internal.py +1 -1
inspect_ai/util/_sandbox/docker/util.py +2 -2
inspect_ai/util/_sandbox/environment.py +6 -5
inspect_ai/util/_sandbox/local.py +1 -1
inspect_ai/util/_sandbox/service.py +22 -7
inspect_ai/util/_store.py +5 -6
inspect_ai/util/_store_model.py +110 -0
inspect_ai/util/_throttle.py +32 -0
{inspect_ai-0.3.55.dist-info → inspect_ai-0.3.56.dist-info}/METADATA +1 -1
{inspect_ai-0.3.55.dist-info → inspect_ai-0.3.56.dist-info}/RECORD +95 -73
{inspect_ai-0.3.55.dist-info → inspect_ai-0.3.56.dist-info}/LICENSE +0 -0
{inspect_ai-0.3.55.dist-info → inspect_ai-0.3.56.dist-info}/WHEEL +0 -0
{inspect_ai-0.3.55.dist-info → inspect_ai-0.3.56.dist-info}/entry_points.txt +0 -0
{inspect_ai-0.3.55.dist-info → inspect_ai-0.3.56.dist-info}/top_level.txt +0 -0

inspect_ai/__init__.py CHANGED Viewed

@@ -9,6 +9,7 @@ from inspect_ai._eval.registry import task
 from inspect_ai._eval.score import score, score_async
 from inspect_ai._eval.task import Epochs, Task, TaskInfo, Tasks
 from inspect_ai._util.constants import PKG_NAME
+from inspect_ai.solver._human_agent.agent import human_agent
 __version__ = importlib_version(PKG_NAME)

inspect_ai/_cli/common.py CHANGED Viewed

@@ -10,7 +10,7 @@ from inspect_ai._util.constants import (
     DEFAULT_LOG_LEVEL,
     DEFAULT_LOG_LEVEL_TRANSCRIPT,
 )
-from inspect_ai._util.display import init_display_type
+from inspect_ai.util._display import init_display_type
 class CommonOptions(TypedDict):

inspect_ai/_cli/trace.py CHANGED Viewed

@@ -4,7 +4,7 @@ import time
 from datetime import datetime
 from json import dumps
 from pathlib import Path
-from typing import Callable, cast
+from typing import Callable
 import click
 from pydantic_core import to_json
@@ -13,8 +13,12 @@ from rich.console import Console, RenderableType
 from rich.table import Column, Table
 from inspect_ai._util.error import PrerequisiteError
-from inspect_ai._util.logger import TRACE_FILE_NAME
-from inspect_ai._util.trace import ActionTraceRecord, inspect_trace_dir, read_trace_file
+from inspect_ai._util.trace import (
+    ActionTraceRecord,
+    inspect_trace_dir,
+    list_trace_files,
+    read_trace_file,
+)
 @click.group("trace")
@@ -36,32 +40,31 @@ def trace_command() -> None:
 )
 def list_command(json: bool) -> None:
     """List all trace files."""
-    trace_dir = inspect_trace_dir()
-    trace_files: list[dict[str, float | str]] = [
-        {"mtime": f.lstat().st_mtime, "file": f.absolute().as_posix()}
-        for f in trace_dir.iterdir()
-        if f.is_file()
-    ]
-    trace_files.sort(key=lambda f: cast(float, f["mtime"]), reverse=True)
+    trace_files = list_trace_files()
     if json:
-        print(dumps(trace_files, indent=2))
+        print(
+            dumps(
+                [dict(file=str(file.file), mtime=file.mtime) for file in trace_files],
+                indent=2,
+            )
+        )
     else:
         table = Table(box=None, show_header=True, pad_edge=False)
         table.add_column("Time")
         table.add_column("Trace File")
         for file in trace_files:
-            mtime = datetime.fromtimestamp(cast(float, file["mtime"])).astimezone()
+            mtime = datetime.fromtimestamp(file.mtime).astimezone()
             table.add_row(
-                mtime.strftime("%d-%b %H:%M:%S %Z"), shlex.quote(str(file["file"]))
+                mtime.strftime("%d-%b %H:%M:%S %Z"), shlex.quote(str(file.file))
             )
         r_print(table)
 @trace_command.command("dump")
-@click.argument("trace-file", type=str, required=False, default=TRACE_FILE_NAME)
-def read_command(trace_file: str) -> None:
+@click.argument("trace-file", type=str, required=False)
+def dump_command(trace_file: str | None) -> None:
     """Dump a trace file to stdout (as a JSON array of log records)."""
-    trace_file_path = resolve_trace_file_path(trace_file)
+    trace_file_path = _resolve_trace_file_path(trace_file)
     traces = read_trace_file(trace_file_path)
     print(
@@ -70,16 +73,16 @@ def read_command(trace_file: str) -> None:
 @trace_command.command("anomalies")
-@click.argument("trace-file", type=str, required=False, default=TRACE_FILE_NAME)
+@click.argument("trace-file", type=str, required=False)
 @click.option(
     "--all",
     is_flag=True,
     default=False,
     help="Show all anomolies including errors and timeouts (by default only still running and cancelled actions are shown).",
 )
-def anomolies_command(trace_file: str, all: bool) -> None:
+def anomolies_command(trace_file: str | None, all: bool) -> None:
     """Look for anomalies in a trace file (never completed or cancelled actions)."""
-    trace_file_path = resolve_trace_file_path(trace_file)
+    trace_file_path = _resolve_trace_file_path(trace_file)
     traces = read_trace_file(trace_file_path)
     # Track started actions
@@ -226,7 +229,17 @@ def _print_bucket(
         print_fn(table)
-def resolve_trace_file_path(trace_file: str) -> Path:
+def _resolve_trace_file(trace_file: str | None) -> str:
+    if trace_file is None:
+        trace_files = list_trace_files()
+        if len(trace_files) == 0:
+            raise PrerequisiteError("No trace files currently availalble.")
+        trace_file = str(trace_files[0].file)
+    return trace_file
+def _resolve_trace_file_path(trace_file: str | None) -> Path:
+    trace_file = _resolve_trace_file(trace_file)
     trace_file_path = Path(trace_file)
     if not trace_file_path.is_absolute():
         trace_file_path = inspect_trace_dir() / trace_file_path

inspect_ai/_display/core/active.py CHANGED Viewed

@@ -3,7 +3,7 @@ from contextvars import ContextVar
 import rich
-from inspect_ai._util.display import display_type
+from inspect_ai.util._display import display_type
 from inspect_ai.util._trace import trace_enabled
 from ..rich.display import RichDisplay

inspect_ai/_display/core/display.py CHANGED Viewed

@@ -99,7 +99,7 @@ class TaskScreen(contextlib.AbstractContextManager["TaskScreen"]):
     ) -> Iterator[Console]:
         yield rich.get_console()
-    async def input_panel(self, title: str, panel: type[TP]) -> TP:
+    async def input_panel(self, panel_type: type[TP]) -> TP:
         raise NotImplementedError("input_panel not implemented by current display")

inspect_ai/_display/core/footer.py CHANGED Viewed

@@ -2,8 +2,8 @@ from rich.console import RenderableType
 from rich.text import Text
 from inspect_ai._util.logger import http_rate_limit_count
-from inspect_ai._util.throttle import throttle
 from inspect_ai.util._concurrency import concurrency_status
+from inspect_ai.util._throttle import throttle
 from .config import task_dict

inspect_ai/_display/core/progress.py CHANGED Viewed

@@ -124,12 +124,6 @@ def progress_status_icon(result: TaskResult | None) -> str:
         return f"[{theme.meta}]⠿[{theme.meta}]"
-def progress_time(time: float) -> str:
-    minutes, seconds = divmod(time, 60)
-    hours, minutes = divmod(minutes, 60)
-    return f"{hours:2.0f}:{minutes:02.0f}:{seconds:02.0f}"
 def progress_count(complete: int, total: int, width: int | None = None) -> str:
     # Pad the display to keep it stable as the
     # complete metrics

inspect_ai/_display/core/rich.py CHANGED Viewed

@@ -9,9 +9,9 @@ from rich.segment import Segment
 from rich.syntax import Syntax
 from typing_extensions import override
-from inspect_ai._util.display import display_type
 from inspect_ai._util.platform import is_running_in_jupyterlab, is_running_in_vscode
 from inspect_ai._util.transcript import transcript_code_theme
+from inspect_ai.util._display import display_type
 def is_vscode_notebook(console: Console) -> bool:

inspect_ai/_display/rich/display.py CHANGED Viewed

@@ -12,9 +12,9 @@ from rich.table import Table
 from typing_extensions import override
 from inspect_ai._util.constants import CONSOLE_DISPLAY_WIDTH
-from inspect_ai._util.display import display_type
-from inspect_ai._util.throttle import throttle
 from inspect_ai.log._transcript import InputEvent, transcript
+from inspect_ai.util._display import display_type
+from inspect_ai.util._throttle import throttle
 from inspect_ai.util._trace import trace_enabled
 from ..core.config import task_config

inspect_ai/_display/textual/app.py CHANGED Viewed

@@ -10,6 +10,7 @@ from textual.app import App, ComposeResult
 from textual.binding import Binding, BindingType
 from textual.css.query import NoMatches
 from textual.events import Print
+from textual.widget import Widget
 from textual.widgets import TabbedContent, TabPane
 from textual.widgets.tabbed_content import ContentTabs
 from textual.worker import Worker, WorkerState
@@ -345,13 +346,15 @@ class TaskScreenApp(App[TR]):
             self.update_title()
     # dynamic input panels
-    async def add_input_panel(self, title: str, panel: InputPanel) -> None:
+    async def add_input_panel(self, panel: InputPanel) -> None:
         tabs = self.query_one(TabbedContent)
-        await tabs.add_pane(TabPane(title, panel, id=as_input_panel_id(title)))
+        await tabs.add_pane(
+            TabPane(panel.title, panel, id=as_input_panel_id(type(panel)))
+        )
-    def get_input_panel(self, title: str) -> InputPanel | None:
+    def get_input_panel(self, panel_type: type) -> InputPanel | None:
         try:
-            tab_pane = self.query_one(f"#{as_input_panel_id(title)}")
+            tab_pane = self.query_one(f"#{as_input_panel_id(panel_type)}")
             if len(tab_pane.children) > 0:
                 return cast(InputPanel, tab_pane.children[0])
             else:
@@ -359,10 +362,6 @@ class TaskScreenApp(App[TR]):
         except NoMatches:
             return None
-    async def remove_input_panel(self, title: str) -> None:
-        tabs = self.query_one(TabbedContent)
-        await tabs.remove_pane(as_html_id(as_input_panel_id(title), title))
     class InputPanelHost(InputPanel.Host):
         def __init__(self, app: "TaskScreenApp[TR]", tab_id: str) -> None:
             self.app = app
@@ -383,7 +382,7 @@ class TaskScreenApp(App[TR]):
             # the tabs control so the user can switch back w/ the keyboard
             tab_pane = self.app.query_one(f"#{self.tab_id}")
             panel = cast(InputPanel, tab_pane.children[0])
-            for child in panel.children:
+            for child in panel.walk_children(Widget):
                 if child.focusable:
                     child.focus()
                     self.app.query_one(ContentTabs).focus()
@@ -455,19 +454,18 @@ class TextualTaskScreen(TaskScreen, Generic[TR]):
                     console.width = old_width
     @override
-    async def input_panel(self, title: str, panel: type[TP]) -> TP:
+    async def input_panel(self, panel_type: type[TP]) -> TP:
         async with self.lock:
-            panel_widget = self.app.get_input_panel(title)
+            panel_widget = self.app.get_input_panel(panel_type)
             if panel_widget is None:
-                panel_widget = panel(
-                    title,
+                panel_widget = panel_type(
                     TaskScreenApp[TR].InputPanelHost(
-                        self.app, as_input_panel_id(title)
+                        self.app, as_input_panel_id(panel_type)
                     ),
                 )
-                await self.app.add_input_panel(title, panel_widget)
+                await self.app.add_input_panel(panel_widget)
             return cast(TP, panel_widget)
-def as_input_panel_id(title: str) -> str:
-    return as_html_id("id-input-panel", title)
+def as_input_panel_id(panel_type: type) -> str:
+    return as_html_id("id-input-panel", panel_type.__name__)

inspect_ai/_display/textual/widgets/clock.py CHANGED Viewed

@@ -4,7 +4,7 @@ from textual.reactive import reactive
 from textual.timer import Timer
 from textual.widgets import Static
-from inspect_ai._display.core.progress import progress_time
+from inspect_ai._util.format import format_progress_time
 class Clock(Static):
@@ -43,7 +43,7 @@ class Clock(Static):
         if start_time is not None:
             if self.timer is None:
                 self.timer = self.set_interval(self.interval, self.update_time)
-            self.update(progress_time(start_time))
+            self.update(format_progress_time(start_time))
         else:
             self.stop()
@@ -52,4 +52,4 @@ class Clock(Static):
             self.time = datetime.now().timestamp() - self.start_time
     def watch_time(self, time: float) -> None:
-        self.update(progress_time(time))
+        self.update(format_progress_time(time))

inspect_ai/_display/textual/widgets/samples.py CHANGED Viewed

@@ -22,10 +22,10 @@ from textual.widgets import (
 )
 from textual.widgets.option_list import Option, Separator
+from inspect_ai._util.format import format_progress_time
 from inspect_ai._util.registry import registry_unqualified_name
 from inspect_ai.log._samples import ActiveSample
-from ...core.progress import progress_time
 from .clock import Clock
 from .transcript import TranscriptView
@@ -147,7 +147,9 @@ class SamplesList(OptionList):
             table.add_column(width=1)
             task_name = Text.from_markup(f"{registry_unqualified_name(sample.task)}")
             task_name.truncate(18, overflow="ellipsis", pad=True)
-            task_time = Text.from_markup(f"{progress_time(sample.execution_time)}")
+            task_time = Text.from_markup(
+                f"{format_progress_time(sample.execution_time)}"
+            )
             table.add_row(task_name, task_time, " ")
             sample_id = Text.from_markup(f"id: {sample.sample.id}")
             sample_id.truncate(18, overflow="ellipsis", pad=True)
@@ -308,12 +310,7 @@ class SandboxesView(Vertical):
         yield Vertical(id="sandboxes-list")
     async def sync_sample(self, sample: ActiveSample) -> None:
-        sandboxes = sample.sandboxes
-        show_sandboxes = (
-            len([sandbox for sandbox in sandboxes.values() if sandbox.container]) > 0
-        )
-        if show_sandboxes:
+        if len(sample.sandboxes) > 0:
             self.display = True
             sandboxes_caption = cast(Static, self.query_one("#sandboxes-caption"))
             sandboxes_caption.update("[bold]sandbox containers:[/bold]")
@@ -321,11 +318,7 @@ class SandboxesView(Vertical):
             sandboxes_list = self.query_one("#sandboxes-list")
             await sandboxes_list.remove_children()
             await sandboxes_list.mount_all(
-                [
-                    Static(sandbox.container)
-                    for sandbox in sandboxes.values()
-                    if sandbox.container
-                ]
+                [Static(sandbox.command) for sandbox in sample.sandboxes.values()]
             )
             sandboxes_list.mount(
                 Static(

inspect_ai/_eval/context.py CHANGED Viewed

@@ -1,7 +1,9 @@
 from inspect_ai._util.dotenv import init_dotenv
 from inspect_ai._util.hooks import init_hooks
 from inspect_ai._util.logger import init_http_rate_limit_count, init_logger
+from inspect_ai.approval._apply import have_tool_approval, init_tool_approval
 from inspect_ai.approval._human.manager import init_human_approval_manager
+from inspect_ai.approval._policy import ApprovalPolicy
 from inspect_ai.log._samples import init_active_samples
 from inspect_ai.model import GenerateConfig, Model
 from inspect_ai.model._model import init_active_model, init_model_usage
@@ -24,6 +26,12 @@ def init_eval_context(
     init_human_approval_manager()
-def init_task_context(model: Model, config: GenerateConfig = GenerateConfig()) -> None:
+def init_task_context(
+    model: Model,
+    approval: list[ApprovalPolicy] | None = None,
+    config: GenerateConfig = GenerateConfig(),
+) -> None:
     init_active_model(model, config)
     init_model_usage()
+    if not have_tool_approval():
+        init_tool_approval(approval)

inspect_ai/_eval/score.py CHANGED Viewed

@@ -11,7 +11,7 @@ from inspect_ai.log import (
     EvalMetric,
 )
 from inspect_ai.model import ModelName
-from inspect_ai.scorer import Metric, Score, Scorer, Target
+from inspect_ai.scorer import Metric, Scorer, Target
 from inspect_ai.scorer._metric import SampleScore
 from inspect_ai.scorer._reducer import (
     ScoreReducer,
@@ -108,7 +108,7 @@ async def score_async(
         # write them back (gather ensures that they come back in the same order)
         for index, score in enumerate(scores):
-            log.samples[index].scores = cast(dict[str, Score], score)
+            log.samples[index].scores = {k: v.score for k, v in score.items()}
         # collect metrics from EvalLog (they may overlap w/ the scorer metrics,
         # that will be taken care of in eval_results)
@@ -151,11 +151,8 @@ async def task_score(task: Task, log: EvalLog) -> EvalLog:
         sample_scores = [
             {
                 score_key: SampleScore(
+                    score=score,
                     sample_id=sample.id,
-                    value=score.value,
-                    answer=score.answer,
-                    explanation=score.explanation,
-                    metadata=score.metadata,
                 )
                 for score_key, score in sample.scores.items()
             }
@@ -185,11 +182,8 @@ async def run_score_task(
         scorer_name = unique_scorer_name(scorer, list(results.keys()))
         results[scorer_name] = SampleScore(
+            score=result,
             sample_id=state.sample_id,
-            value=result.value,
-            answer=result.answer,
-            explanation=result.explanation,
-            metadata=result.metadata,
         )
     progress()

inspect_ai/_eval/task/results.py CHANGED Viewed

@@ -13,6 +13,7 @@ from inspect_ai._util.registry import (
 from inspect_ai.log import (
     EvalMetric,
     EvalResults,
+    EvalSampleScore,
     EvalScore,
 )
 from inspect_ai.log._log import EvalSampleReductions
@@ -345,7 +346,7 @@ def resolve_glob_metric_keys(
 def reduce_scores(
     scores: list[SampleScore], reducer: ScoreReducer
-) -> list[SampleScore]:
+) -> list[EvalSampleScore]:
     # Group the scores by sample_id
     grouped_scores: dict[str, list[SampleScore]] = defaultdict(list)
     for sample_score in scores:
@@ -353,11 +354,11 @@ def reduce_scores(
             grouped_scores[str(sample_score.sample_id)].append(sample_score)
     # reduce the scores
-    reduced_scores: list[SampleScore] = []
+    reduced_scores: list[EvalSampleScore] = []
     for scores in grouped_scores.values():
-        reduced = reducer(cast(list[Score], scores))
+        reduced = reducer([score.score for score in scores])
         reduced_scores.append(
-            SampleScore(
+            EvalSampleScore(
                 sample_id=scores[0].sample_id,
                 value=reduced.value,
                 answer=reduced.answer,

inspect_ai/_eval/task/run.py CHANGED Viewed

@@ -6,7 +6,7 @@ from copy import deepcopy
 from dataclasses import dataclass, field
 from logging import getLogger
 from pathlib import PurePath
-from typing import Callable, Literal, cast
+from typing import Callable, Literal
 from typing_extensions import Unpack
@@ -62,7 +62,7 @@ from inspect_ai.model import (
 )
 from inspect_ai.model._model import init_sample_model_usage, sample_model_usage
 from inspect_ai.scorer import Scorer, Target
-from inspect_ai.scorer._metric import Metric, SampleScore, Score
+from inspect_ai.scorer._metric import Metric, SampleScore
 from inspect_ai.scorer._reducer.types import ScoreReducer
 from inspect_ai.scorer._score import init_scoring_context
 from inspect_ai.scorer._scorer import unique_scorer_name
@@ -136,7 +136,7 @@ async def task_run(options: TaskRunOptions) -> EvalLog:
     generate_config = task.config.merge(GenerateConfigArgs(**kwargs))
     # init task context
-    init_task_context(model, generate_config)
+    init_task_context(model, options.task.approval, generate_config)
     # establish run_dir for duration of execution
     with set_task_run_dir(task_run_dir(task)):
@@ -503,11 +503,8 @@ async def task_run_sample(
             sample_scores = (
                 {
                     key: SampleScore(
+                        score=score,
                         sample_id=previous_sample.id,
-                        value=score.value,
-                        answer=score.answer,
-                        explanation=score.explanation,
-                        metadata=score.metadata,
                     )
                     for key, score in previous_sample.scores.items()
                 }
@@ -652,11 +649,8 @@ async def task_run_sample(
                             )
                             if score_result is not None:
                                 sample_score = SampleScore(
+                                    score=score_result,
                                     sample_id=sample.id,
-                                    value=score_result.value,
-                                    answer=score_result.answer,
-                                    explanation=score_result.explanation,
-                                    metadata=score_result.metadata,
                                 )
                                 transcript()._event(
                                     ScoreEvent(score=score_result, target=sample.target)
@@ -759,7 +753,7 @@ async def log_sample(
         setup=sample.setup,
         messages=state.messages,
         output=state.output,
-        scores=cast(dict[str, Score], scores),
+        scores={k: v.score for k, v in scores.items()},
         store=dict(state.store.items()),
         events=list(transcript().events),
         model_usage=sample_model_usage(),

inspect_ai/_eval/task/task.py CHANGED Viewed

@@ -7,6 +7,7 @@ from typing_extensions import TypedDict, Unpack
 from inspect_ai._util.logger import warn_once
 from inspect_ai._util.registry import is_registry_object, registry_info
+from inspect_ai.approval._policy import ApprovalPolicy, approval_policies_from_config
 from inspect_ai.dataset import Dataset, MemoryDataset, Sample
 from inspect_ai.log import EvalLog
 from inspect_ai.model import GenerateConfig
@@ -49,6 +50,9 @@ class Task:
         config (GenerateConfig): Model generation config.
         sandbox (SandboxEnvironmentType | None): Sandbox environment type
           (or optionally a str or tuple with a shorthand spec)
+        approval: (str | list[ApprovalPolicy] | None): Tool use approval policies.
+          Either a path to an approval policy config file or a list of approval policies.
+          Defaults to no approval policy.
         epochs (int | Epochs | None): Epochs to repeat samples for and optional score
            reducer function(s) used to combine sample scores (defaults to "mean")
         fail_on_error (bool | float | None): `True` to fail on first sample error
@@ -76,6 +80,7 @@ class Task:
         metrics: list[Metric] | dict[str, list[Metric]] | None = None,
         config: GenerateConfig = GenerateConfig(),
         sandbox: SandboxEnvironmentType | None = None,
+        approval: str | list[ApprovalPolicy] | None = None,
         epochs: int | Epochs | None = None,
         fail_on_error: bool | float | None = None,
         message_limit: int | None = None,
@@ -134,6 +139,11 @@ class Task:
         self.metrics = metrics
         self.config = config
         self.sandbox = resolve_sandbox_environment(sandbox)
+        self.approval = (
+            approval_policies_from_config(approval)
+            if isinstance(approval, str)
+            else approval
+        )
         self.epochs = epochs.epochs if epochs else None
         self.epochs_reducer = epochs.reducer if epochs else None
         self.fail_on_error = fail_on_error

inspect_ai/_util/ansi.py ADDED Viewed

@@ -0,0 +1,31 @@
+import os
+from typing import Any
+from rich.console import Console, RenderableType
+def render_text(
+    text: RenderableType | list[RenderableType], styles: bool = True, **options: Any
+) -> str:
+    """Render text from Rich renderables.
+    Args:
+      text (RenderableType | list[RenderableType]): Renderables.
+      styles (bool): If True, ansi escape codes will be included. False for plain text.
+        Defaults to True.
+      **options (Any): Additonal keyword arguments to pass to `Console` constructor.
+    Returns:
+       str: Rendered text (with ansi codes if `styles=True`)
+    """
+    # resolve to text
+    text = text if isinstance(text, list) else [text]
+    # print to console attached to /dev/null
+    with open(os.devnull, "w") as f:
+        console = Console(file=f, record=True, force_terminal=True, **options)
+        for t in text:
+            console.print(t)
+    # export (optionally w/ ansi styles)
+    return console.export_text(styles=styles).strip()

inspect_ai/_util/format.py CHANGED Viewed

@@ -26,3 +26,10 @@ def format_value(value: object, width: int) -> str:
     elif isinstance(value, list | tuple | dict):
         return pprint.pformat(value, width=width)
     return str(value)
+def format_progress_time(time: float, pad_hours: bool = True) -> str:
+    minutes, seconds = divmod(time, 60)
+    hours, minutes = divmod(minutes, 60)
+    hours_fmt = f"{hours:2.0f}" if pad_hours else f"{hours:.0f}"
+    return f"{hours_fmt}:{minutes:02.0f}:{seconds:02.0f}"

inspect_ai/_util/logger.py CHANGED Viewed

@@ -1,3 +1,4 @@
+import atexit
 import os
 from logging import (
     DEBUG,
@@ -30,7 +31,12 @@ from .constants import (
     TRACE_LOG_LEVEL,
 )
 from .error import PrerequisiteError
-from .trace import TraceFileHandler, TraceFormatter, inspect_trace_dir
+from .trace import (
+    TraceFormatter,
+    compress_trace_log,
+    inspect_trace_file,
+    rotate_trace_files,
+)
 TRACE_FILE_NAME = "trace.log"
@@ -56,19 +62,13 @@ class LogHandler(RichHandler):
         else:
             self.file_logger_level = 0
-        # add a trace handler
-        default_trace_file = inspect_trace_dir() / TRACE_FILE_NAME
-        have_existing_trace_file = default_trace_file.exists()
+        # add a trace file handler
+        rotate_trace_files()  # remove oldest if > 10 trace files
         env_trace_file = os.environ.get("INSPECT_TRACE_FILE", None)
-        trace_file = Path(env_trace_file) if env_trace_file else default_trace_file
-        trace_total_files = 10
-        self.trace_logger = TraceFileHandler(
-            trace_file.as_posix(),
-            backupCount=trace_total_files - 1,  # exclude the current file (10 total)
-        )
+        trace_file = Path(env_trace_file) if env_trace_file else inspect_trace_file()
+        self.trace_logger = FileHandler(trace_file)
         self.trace_logger.setFormatter(TraceFormatter())
-        if have_existing_trace_file:
-            self.trace_logger.doRollover()
+        atexit.register(compress_trace_log(self.trace_logger))
         # set trace level
         trace_level = os.environ.get("INSPECT_TRACE_LEVEL", TRACE_LOG_LEVEL)

inspect_ai/_util/throttle.py CHANGED Viewed

@@ -3,7 +3,16 @@ from functools import wraps
 from typing import Any, Callable
-def throttle(seconds: int) -> Callable[..., Any]:
+def throttle(seconds: float) -> Callable[..., Any]:
+    """Throttle a function to ensure it is called no more than every n seconds.
+    Args:
+       seconds (float): Throttle time.
+    Returns:
+       Callable: Throttled function.
+    """
     def decorator(func: Callable[..., Any]) -> Callable[..., Any]:
         last_called: float = 0
         last_result: Any = None

inspect-ai 0.3.55__py3-none-any.whl → 0.3.56__py3-none-any.whl

inspect-ai 0.3.55py3-none-any.whl → 0.3.56py3-none-any.whl