npm - @jinn-network/client - Versions diffs - 0.1.6 → 0.1.7 - Mend

@jinn-network/client 0.1.6 → 0.1.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (288) hide show

package/CHANGELOG.md +33 -0
package/deployments/deployment-jinn-mvi-l1-sepolia-fast.json +23 -4
package/deployments/deployment-jinn-mvi-l1-sepolia.json +23 -4
package/deployments/deployment-jinn-mvi-l2-baseSepolia.json +5 -4
package/dist/adapters/mech/adapter.d.ts +38 -1
package/dist/adapters/mech/adapter.js +241 -54
package/dist/adapters/mech/adapter.js.map +1 -1
package/dist/adapters/mech/contracts.d.ts +17 -4
package/dist/adapters/mech/contracts.js +8 -2
package/dist/adapters/mech/contracts.js.map +1 -1
package/dist/adapters/mech/safe-revert.d.ts +20 -0
package/dist/adapters/mech/safe-revert.js +12 -4
package/dist/adapters/mech/safe-revert.js.map +1 -1
package/dist/adapters/mech/safe.d.ts +5 -1
package/dist/adapters/mech/safe.js +27 -8
package/dist/adapters/mech/safe.js.map +1 -1
package/dist/adapters/mech/verdict-code.d.ts +1 -0
package/dist/adapters/mech/verdict-code.js +18 -0
package/dist/adapters/mech/verdict-code.js.map +1 -1
package/dist/api/admin-endpoint.d.ts +15 -3
package/dist/api/admin-endpoint.js +24 -2
package/dist/api/admin-endpoint.js.map +1 -1
package/dist/api/bootstrap-endpoint.js +49 -0
package/dist/api/bootstrap-endpoint.js.map +1 -1
package/dist/api/codex-doctor-endpoint.d.ts +73 -0
package/dist/api/codex-doctor-endpoint.js +177 -0
package/dist/api/codex-doctor-endpoint.js.map +1 -0
package/dist/api/discovery-endpoint.d.ts +1 -0
package/dist/api/discovery-endpoint.js +26 -0
package/dist/api/discovery-endpoint.js.map +1 -1
package/dist/api/fleet-build.d.ts +1 -0
package/dist/api/fleet-build.js +2 -1
package/dist/api/fleet-build.js.map +1 -1
package/dist/api/gather-status.d.ts +11 -0
package/dist/api/gather-status.js +400 -4
package/dist/api/gather-status.js.map +1 -1
package/dist/api/hermes-doctor-endpoint.d.ts +117 -0
package/dist/api/hermes-doctor-endpoint.js +229 -23
package/dist/api/hermes-doctor-endpoint.js.map +1 -1
package/dist/api/launcher-status.d.ts +21 -16
package/dist/api/launcher-status.js +2 -1
package/dist/api/launcher-status.js.map +1 -1
package/dist/api/portfolio-v0-build.d.ts +10 -0
package/dist/api/portfolio-v0-build.js +24 -5
package/dist/api/portfolio-v0-build.js.map +1 -1
package/dist/api/prediction-v1-build.d.ts +10 -0
package/dist/api/prediction-v1-build.js +7 -1
package/dist/api/prediction-v1-build.js.map +1 -1
package/dist/api/server.d.ts +31 -1
package/dist/api/server.js +68 -1
package/dist/api/server.js.map +1 -1
package/dist/api/setup-endpoints.d.ts +16 -0
package/dist/api/setup-endpoints.js +78 -4
package/dist/api/setup-endpoints.js.map +1 -1
package/dist/api/setup-retry-endpoint.d.ts +19 -0
package/dist/api/setup-retry-endpoint.js +32 -0
package/dist/api/setup-retry-endpoint.js.map +1 -0
package/dist/api/solvernets-endpoints.d.ts +8 -0
package/dist/api/solvernets-endpoints.js +71 -43
package/dist/api/solvernets-endpoints.js.map +1 -1
package/dist/api/status-build.d.ts +72 -0
package/dist/api/status-build.js +73 -18
package/dist/api/status-build.js.map +1 -1
package/dist/api/task-run-routing.d.ts +7 -0
package/dist/api/task-run-routing.js +12 -0
package/dist/api/task-run-routing.js.map +1 -0
package/dist/api/task-runs-build.d.ts +21 -0
package/dist/api/task-runs-build.js +14 -1
package/dist/api/task-runs-build.js.map +1 -1
package/dist/build-info.json +4 -4
package/dist/build-meta.json +1 -1
package/dist/chain-read-errors.d.ts +10 -0
package/dist/chain-read-errors.js +15 -0
package/dist/chain-read-errors.js.map +1 -1
package/dist/cli/commands/auth.js +1 -1
package/dist/cli/commands/auth.js.map +1 -1
package/dist/cli/commands/create.js +3 -2
package/dist/cli/commands/create.js.map +1 -1
package/dist/cli/commands/doctor.d.ts +2 -0
package/dist/cli/commands/doctor.js +2 -0
package/dist/cli/commands/doctor.js.map +1 -1
package/dist/cli/commands/rewards.js +11 -7
package/dist/cli/commands/rewards.js.map +1 -1
package/dist/cli/commands/solver-nets.js +24 -9
package/dist/cli/commands/solver-nets.js.map +1 -1
package/dist/cli/commands/status.js +1 -1
package/dist/cli/commands/status.js.map +1 -1
package/dist/cli/commands/tasks.js +86 -9
package/dist/cli/commands/tasks.js.map +1 -1
package/dist/cli/commands/update.d.ts +10 -0
package/dist/cli/commands/update.js +36 -0
package/dist/cli/commands/update.js.map +1 -1
package/dist/cli/introspection-context.js +5 -0
package/dist/cli/introspection-context.js.map +1 -1
package/dist/cli/task-native-readiness.d.ts +3 -1
package/dist/cli/task-native-readiness.js +28 -6
package/dist/cli/task-native-readiness.js.map +1 -1
package/dist/config.d.ts +106 -5
package/dist/config.js +97 -18
package/dist/config.js.map +1 -1
package/dist/daemon/checkpoint-loop.d.ts +48 -0
package/dist/daemon/checkpoint-loop.js +76 -0
package/dist/daemon/checkpoint-loop.js.map +1 -0
package/dist/daemon/creator.d.ts +1 -1
package/dist/daemon/creator.js +7 -3
package/dist/daemon/creator.js.map +1 -1
package/dist/daemon/daemon.d.ts +19 -0
package/dist/daemon/daemon.js +68 -1
package/dist/daemon/daemon.js.map +1 -1
package/dist/daemon/eviction-loop.d.ts +40 -0
package/dist/daemon/eviction-loop.js +67 -0
package/dist/daemon/eviction-loop.js.map +1 -0
package/dist/daemon/jinn-claim-loop-wiring.d.ts +33 -0
package/dist/daemon/jinn-claim-loop-wiring.js +40 -0
package/dist/daemon/jinn-claim-loop-wiring.js.map +1 -0
package/dist/daemon/jinn-claim-loop.d.ts +24 -17
package/dist/daemon/jinn-claim-loop.js +77 -23
package/dist/daemon/jinn-claim-loop.js.map +1 -1
package/dist/daemon/skip-log-dedup.d.ts +69 -0
package/dist/daemon/skip-log-dedup.js +106 -0
package/dist/daemon/skip-log-dedup.js.map +1 -0
package/dist/dashboard/assets/index-BUlE8F3Y.js +330 -0
package/dist/dashboard/assets/index-blqc7eqq.css +32 -0
package/dist/dashboard/index.html +2 -2
package/dist/discovery/factory.d.ts +17 -5
package/dist/discovery/factory.js +46 -18
package/dist/discovery/factory.js.map +1 -1
package/dist/discovery/http.js +142 -3
package/dist/discovery/http.js.map +1 -1
package/dist/discovery/onchain.d.ts +5 -0
package/dist/discovery/onchain.js +407 -15
package/dist/discovery/onchain.js.map +1 -1
package/dist/discovery/types.d.ts +45 -1
package/dist/discovery/types.js +8 -10
package/dist/discovery/types.js.map +1 -1
package/dist/discovery/with-fallback.d.ts +7 -0
package/dist/discovery/with-fallback.js +10 -0
package/dist/discovery/with-fallback.js.map +1 -1
package/dist/earning/bootstrap.d.ts +92 -1
package/dist/earning/bootstrap.js +203 -63
package/dist/earning/bootstrap.js.map +1 -1
package/dist/earning/contracts.d.ts +14 -0
package/dist/earning/contracts.js +17 -5
package/dist/earning/contracts.js.map +1 -1
package/dist/earning/funding-plan.js +27 -18
package/dist/earning/funding-plan.js.map +1 -1
package/dist/earning/jinn-rewards.d.ts +46 -0
package/dist/earning/jinn-rewards.js +32 -0
package/dist/earning/jinn-rewards.js.map +1 -1
package/dist/earning/safe-adapter.d.ts +2 -0
package/dist/earning/safe-adapter.js +26 -12
package/dist/earning/safe-adapter.js.map +1 -1
package/dist/earning/store.d.ts +8 -0
package/dist/earning/store.js.map +1 -1
package/dist/earning/testnet-setup-migration.d.ts +12 -0
package/dist/earning/testnet-setup-migration.js +27 -1
package/dist/earning/testnet-setup-migration.js.map +1 -1
package/dist/earning/types.d.ts +15 -0
package/dist/erc8004/reputation.d.ts +8 -0
package/dist/erc8004/reputation.js +22 -3
package/dist/erc8004/reputation.js.map +1 -1
package/dist/harnesses/cost-estimates.d.ts +145 -0
package/dist/harnesses/cost-estimates.js +297 -0
package/dist/harnesses/cost-estimates.js.map +1 -0
package/dist/harnesses/engine/engine.d.ts +72 -0
package/dist/harnesses/engine/engine.js +105 -8
package/dist/harnesses/engine/engine.js.map +1 -1
package/dist/harnesses/engine/persistence.d.ts +51 -1
package/dist/harnesses/engine/persistence.js +118 -5
package/dist/harnesses/engine/persistence.js.map +1 -1
package/dist/harnesses/engine/work-dir-reaper.d.ts +65 -0
package/dist/harnesses/engine/work-dir-reaper.js +100 -0
package/dist/harnesses/engine/work-dir-reaper.js.map +1 -0
package/dist/harnesses/impls/hermes-agent/adapter.js +40 -0
package/dist/harnesses/impls/hermes-agent/adapter.js.map +1 -1
package/dist/harnesses/impls/hermes-agent/bootstrap.d.ts +20 -0
package/dist/harnesses/impls/hermes-agent/bootstrap.js +40 -6
package/dist/harnesses/impls/hermes-agent/bootstrap.js.map +1 -1
package/dist/harnesses/impls/hermes-agent/harness.d.ts +59 -1
package/dist/harnesses/impls/hermes-agent/harness.js +104 -0
package/dist/harnesses/impls/hermes-agent/harness.js.map +1 -1
package/dist/harnesses/impls/index.d.ts +7 -0
package/dist/harnesses/impls/index.js +16 -1
package/dist/harnesses/impls/index.js.map +1 -1
package/dist/harnesses/impls/learner/harness.d.ts +38 -4
package/dist/harnesses/impls/learner/harness.js +96 -2
package/dist/harnesses/impls/learner/harness.js.map +1 -1
package/dist/harnesses/impls/learner/plugin-path.d.ts +0 -13
package/dist/harnesses/impls/learner/plugin-path.js +35 -15
package/dist/harnesses/impls/learner/plugin-path.js.map +1 -1
package/dist/harnesses/impls/learner/types.d.ts +11 -0
package/dist/harnesses/impls/stub.d.ts +58 -0
package/dist/harnesses/impls/stub.js +89 -0
package/dist/harnesses/impls/stub.js.map +1 -0
package/dist/harnesses/impls/swe-rebench-v2-evaluator/eval-runner.d.ts +69 -50
package/dist/harnesses/impls/swe-rebench-v2-evaluator/eval-runner.js +178 -93
package/dist/harnesses/impls/swe-rebench-v2-evaluator/eval-runner.js.map +1 -1
package/dist/harnesses/impls/swe-rebench-v2-evaluator/harness.d.ts +12 -1
package/dist/harnesses/impls/swe-rebench-v2-evaluator/harness.js +121 -7
package/dist/harnesses/impls/swe-rebench-v2-evaluator/harness.js.map +1 -1
package/dist/harnesses/impls/swe-rebench-v2-evaluator/hf-fetcher.d.ts +15 -0
package/dist/harnesses/impls/swe-rebench-v2-evaluator/hf-fetcher.js +54 -4
package/dist/harnesses/impls/swe-rebench-v2-evaluator/hf-fetcher.js.map +1 -1
package/dist/harnesses/impls/swe-rebench-v2-evaluator/index.d.ts +6 -0
package/dist/harnesses/impls/swe-rebench-v2-evaluator/index.js +1 -1
package/dist/harnesses/impls/swe-rebench-v2-evaluator/index.js.map +1 -1
package/dist/harnesses/readiness-registry.js +9 -1
package/dist/harnesses/readiness-registry.js.map +1 -1
package/dist/main.js +371 -82
package/dist/main.js.map +1 -1
package/dist/observability/emit-event.d.ts +1 -1
package/dist/observability/emit-event.js.map +1 -1
package/dist/operator-errors.d.ts +7 -0
package/dist/operator-errors.js +13 -1
package/dist/operator-errors.js.map +1 -1
package/dist/plugins/learner/.claude-plugin/plugin.json +9 -0
package/dist/plugins/learner/.codex-plugin/plugin.json +39 -0
package/dist/plugins/learner/AGENTS.md +40 -0
package/dist/plugins/learner/CLAUDE.md +33 -0
package/dist/plugins/learner/README.md +59 -0
package/dist/plugins/learner/hooks/hooks.json +16 -0
package/dist/plugins/learner/hooks/session-start +38 -0
package/dist/plugins/learner/skills/learn/SKILL.md +412 -0
package/dist/plugins/learner/skills/learn/analyst-prompt.md +68 -0
package/dist/plugins/learner/skills/learn/consolidator-prompt.md +94 -0
package/dist/plugins/learner/skills/learn/explorer-prompt.md +53 -0
package/dist/plugins/learner/skills/learn/planner-prompt.md +87 -0
package/dist/plugins/learner/skills/learn/promoter-prompt.md +113 -0
package/dist/plugins/learner/skills/learn/step-worker-prompt.md +47 -0
package/dist/plugins/learner/skills/learn/strategist-prompt.md +85 -0
package/dist/restart-daemon.d.ts +90 -0
package/dist/restart-daemon.js +95 -0
package/dist/restart-daemon.js.map +1 -0
package/dist/setup/halt-mode.d.ts +14 -0
package/dist/setup/halt-mode.js +17 -0
package/dist/setup/halt-mode.js.map +1 -0
package/dist/solver-nets/prediction-operator-ux.js +43 -3
package/dist/solver-nets/prediction-operator-ux.js.map +1 -1
package/dist/solver-nets/registry.d.ts +1 -0
package/dist/solver-nets/registry.js +1 -1
package/dist/solver-nets/registry.js.map +1 -1
package/dist/solver-types/_swe-rebench-v2-pool-cache.d.ts +58 -0
package/dist/solver-types/_swe-rebench-v2-pool-cache.js +87 -0
package/dist/solver-types/_swe-rebench-v2-pool-cache.js.map +1 -0
package/dist/solver-types/_swe-rebench-v2-substrate.d.ts +1 -0
package/dist/solver-types/_swe-rebench-v2-substrate.js +10 -0
package/dist/solver-types/_swe-rebench-v2-substrate.js.map +1 -1
package/dist/solver-types/_swe-rebench-v2-validated-pool.d.ts +65 -0
package/dist/solver-types/_swe-rebench-v2-validated-pool.js +243 -26
package/dist/solver-types/_swe-rebench-v2-validated-pool.js.map +1 -1
package/dist/solver-types/swe-rebench-v2-auto.d.ts +22 -7
package/dist/solver-types/swe-rebench-v2-auto.js +45 -20
package/dist/solver-types/swe-rebench-v2-auto.js.map +1 -1
package/dist/solver-types/swe-rebench-v2.d.ts +13 -2
package/dist/solver-types/swe-rebench-v2.js +233 -94
package/dist/solver-types/swe-rebench-v2.js.map +1 -1
package/dist/solvernets/daemon-init.d.ts +10 -2
package/dist/solvernets/daemon-init.js +22 -2
package/dist/solvernets/daemon-init.js.map +1 -1
package/dist/solvernets/launched-record-dispatcher.js +35 -7
package/dist/solvernets/launched-record-dispatcher.js.map +1 -1
package/dist/solvernets/store.d.ts +5 -0
package/dist/solvernets/store.js +1 -0
package/dist/solvernets/store.js.map +1 -1
package/dist/store/store.d.ts +15 -0
package/dist/store/store.js +118 -3
package/dist/store/store.js.map +1 -1
package/dist/tasks/sources.d.ts +18 -1
package/dist/tasks/sources.js +33 -5
package/dist/tasks/sources.js.map +1 -1
package/dist/tx-retry.d.ts +151 -19
package/dist/tx-retry.js +286 -32
package/dist/tx-retry.js.map +1 -1
package/dist/types/payloads/prediction-apy-v0.d.ts +5 -5
package/dist/types/payloads/prediction-v0.d.ts +5 -5
package/dist/types/task-document.d.ts +392 -0
package/dist/types/task-document.js +10 -0
package/dist/types/task-document.js.map +1 -1
package/dist/types/task.d.ts +28 -0
package/dist/util/extract-tx-hash.d.ts +14 -0
package/dist/util/extract-tx-hash.js +19 -0
package/dist/util/extract-tx-hash.js.map +1 -0
package/dist/vendor/@jinn-network/sdk/dist/contracts.js +1 -1
package/dist/vendor/@jinn-network/sdk/dist/solvernets/manifest-schema.d.ts +3 -0
package/dist/vendor/@jinn-network/sdk/dist/solvernets/manifest-schema.js +1 -0
package/package.json +29 -12
package/dist/dashboard/assets/index-DOlzFN8a.css +0 -32
package/dist/dashboard/assets/index-NkZ7CTAT.js +0 -140

package/dist/harnesses/impls/learner/types.d.ts CHANGED Viewed

@@ -121,4 +121,15 @@ export interface LearnerHarnessConfig {
      * Defaults to 'bare'.
      */
     runtimeMode?: 'bare' | 'container' | 'docker-compose';
+    /**
+     * Path to the `codex` executable. Used by `isReady()` when this
+     * `LearnerHarness` is the Codex variant (`name === CODEX_HARNESS`) — it is
+     * passed to `probeCodexDoctor()`. Defaults to 'codex' (from PATH).
+     */
+    codexPath?: string;
+    /**
+     * Timeout (ms) for the `codex --version` probe in the Codex variant's
+     * `isReady()`. Defaults to 30s.
+     */
+    codexDoctorTimeoutMs?: number;
 }

package/dist/harnesses/impls/stub.d.ts ADDED Viewed

@@ -0,0 +1,58 @@
+/**
+ * Env-gated stub harness for the T2.2 producer/evaluator gate.
+ *
+ * When JINN_HARNESS_STUB_INSTANCE is set, the canned patch at
+ * <fixturesDir>/<instanceMatcher>.patch is returned as a SWE-rebench v2
+ * restoration solution. Never calls an LLM; never accepts tasks whose
+ * spec.instance_id differs from the configured matcher.
+ *
+ * PRODUCTION SAFETY — two-env-var requirement.
+ * This is a *fake* harness: it produces canned, non-genuine work. If it ever
+ * entered a real operator run it would generate fraudulent on-chain activity.
+ * To make accidental activation impossible, the factory requires BOTH:
+ *   JINN_HARNESS_STUB_INSTANCE     — instance ID this stub responds to
+ *   JINN_TEST_MODE === '1'         — explicit test-mode sentinel
+ * If JINN_HARNESS_STUB_INSTANCE is set but JINN_TEST_MODE is not '1', the
+ * factory THROWS rather than silently registering the stub. A single stray
+ * exported env var in an operator's shell can no longer activate it.
+ *
+ * Activated by environment variables:
+ *   JINN_HARNESS_STUB_INSTANCE     — instance ID this stub responds to (required to activate)
+ *   JINN_TEST_MODE                 — must equal '1' (defense-in-depth; required to activate)
+ *   JINN_HARNESS_STUB_FIXTURES_DIR — dir containing <instanceMatcher>.patch files
+ *                                    (default: client/test/release/tier-2/fixtures)
+ */
+import type { Harness, HarnessContext, ReadyStatus, Solution } from '../types.js';
+export interface StubHarnessConfig {
+    /** Directory containing <instanceMatcher>.patch files. */
+    fixturesDir: string;
+    /** The instance ID this stub will accept. Tasks with other instance IDs are rejected. */
+    instanceMatcher: string;
+}
+/**
+ * A zero-LLM Harness that returns a canned patch for a specific SWE-rebench v2
+ * instance. Intended exclusively for T2.2 release-gate automation.
+ */
+export declare class StubHarness implements Harness {
+    readonly name = "harness:stub";
+    readonly version = "0.1.0-stub";
+    private readonly fixturesDir;
+    private readonly instanceMatcher;
+    constructor(config: StubHarnessConfig);
+    supports(ctx: {
+        solverType: string;
+        role?: 'restoration' | 'evaluation';
+    }): boolean;
+    isReady(): Promise<ReadyStatus>;
+    run(ctx: HarnessContext): Promise<Solution>;
+}
+/**
+ * Factory that reads JINN_HARNESS_STUB_INSTANCE and JINN_HARNESS_STUB_FIXTURES_DIR
+ * from the environment and returns a configured StubHarness, or null if the env
+ * var is absent (allowing the registry to skip registration silently).
+ *
+ * Defense-in-depth: if JINN_HARNESS_STUB_INSTANCE is set but JINN_TEST_MODE is
+ * not exactly '1', this THROWS rather than returning a harness — a real
+ * operator run must never silently pick up the fake stub harness.
+ */
+export declare function maybeCreateStubHarnessFromEnv(): StubHarness | null;

package/dist/harnesses/impls/stub.js ADDED Viewed

@@ -0,0 +1,89 @@
+/**
+ * Env-gated stub harness for the T2.2 producer/evaluator gate.
+ *
+ * When JINN_HARNESS_STUB_INSTANCE is set, the canned patch at
+ * <fixturesDir>/<instanceMatcher>.patch is returned as a SWE-rebench v2
+ * restoration solution. Never calls an LLM; never accepts tasks whose
+ * spec.instance_id differs from the configured matcher.
+ *
+ * PRODUCTION SAFETY — two-env-var requirement.
+ * This is a *fake* harness: it produces canned, non-genuine work. If it ever
+ * entered a real operator run it would generate fraudulent on-chain activity.
+ * To make accidental activation impossible, the factory requires BOTH:
+ *   JINN_HARNESS_STUB_INSTANCE     — instance ID this stub responds to
+ *   JINN_TEST_MODE === '1'         — explicit test-mode sentinel
+ * If JINN_HARNESS_STUB_INSTANCE is set but JINN_TEST_MODE is not '1', the
+ * factory THROWS rather than silently registering the stub. A single stray
+ * exported env var in an operator's shell can no longer activate it.
+ *
+ * Activated by environment variables:
+ *   JINN_HARNESS_STUB_INSTANCE     — instance ID this stub responds to (required to activate)
+ *   JINN_TEST_MODE                 — must equal '1' (defense-in-depth; required to activate)
+ *   JINN_HARNESS_STUB_FIXTURES_DIR — dir containing <instanceMatcher>.patch files
+ *                                    (default: client/test/release/tier-2/fixtures)
+ */
+import * as fs from 'node:fs/promises';
+import * as path from 'node:path';
+/**
+ * A zero-LLM Harness that returns a canned patch for a specific SWE-rebench v2
+ * instance. Intended exclusively for T2.2 release-gate automation.
+ */
+export class StubHarness {
+    name = 'harness:stub';
+    version = '0.1.0-stub';
+    fixturesDir;
+    instanceMatcher;
+    constructor(config) {
+        this.fixturesDir = config.fixturesDir;
+        this.instanceMatcher = config.instanceMatcher;
+    }
+    supports(ctx) {
+        if (ctx.role === 'evaluation')
+            return false;
+        return ctx.solverType === 'swe-rebench-v2.v1';
+    }
+    async isReady() {
+        return { ready: true };
+    }
+    async run(ctx) {
+        const taskInstanceId = ctx.task.spec?.['instance_id'];
+        if (taskInstanceId !== this.instanceMatcher) {
+            throw new Error(`stub harness: task.spec.instance_id=${String(taskInstanceId)} does not match configured instanceMatcher=${this.instanceMatcher}`);
+        }
+        const patchPath = path.join(this.fixturesDir, `${this.instanceMatcher}.patch`);
+        const patch = await fs.readFile(patchPath, 'utf-8');
+        return {
+            venueRef: { name: this.name },
+            gating: {},
+            solutionPayload: {
+                schemaVersion: 'swe-rebench-v2-solution.v1',
+                patch,
+            },
+        };
+    }
+}
+/**
+ * Factory that reads JINN_HARNESS_STUB_INSTANCE and JINN_HARNESS_STUB_FIXTURES_DIR
+ * from the environment and returns a configured StubHarness, or null if the env
+ * var is absent (allowing the registry to skip registration silently).
+ *
+ * Defense-in-depth: if JINN_HARNESS_STUB_INSTANCE is set but JINN_TEST_MODE is
+ * not exactly '1', this THROWS rather than returning a harness — a real
+ * operator run must never silently pick up the fake stub harness.
+ */
+export function maybeCreateStubHarnessFromEnv() {
+    const instanceMatcher = process.env['JINN_HARNESS_STUB_INSTANCE'];
+    if (!instanceMatcher)
+        return null;
+    if (process.env['JINN_TEST_MODE'] !== '1') {
+        throw new Error('stub harness must never activate in a real operator run: ' +
+            'JINN_HARNESS_STUB_INSTANCE is set but JINN_TEST_MODE is not "1". ' +
+            'The stub harness produces canned, non-genuine work and would generate ' +
+            'fraudulent on-chain activity. Set JINN_TEST_MODE=1 if this is a Tier 2 ' +
+            'test; otherwise unset JINN_HARNESS_STUB_INSTANCE.');
+    }
+    const fixturesDir = process.env['JINN_HARNESS_STUB_FIXTURES_DIR'] ??
+        path.resolve(process.cwd(), 'test', 'release', 'tier-2', 'fixtures');
+    return new StubHarness({ instanceMatcher, fixturesDir });
+}
+//# sourceMappingURL=stub.js.map

package/dist/harnesses/impls/stub.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"stub.js","sourceRoot":"","sources":["../../../src/harnesses/impls/stub.ts"],"names":[],"mappings":"AAAA;;;;;;;;;;;;;;;;;;;;;;;GAuBG;AAEH,OAAO,KAAK,EAAE,MAAM,kBAAkB,CAAC;AACvC,OAAO,KAAK,IAAI,MAAM,WAAW,CAAC;AAUlC;;;GAGG;AACH,MAAM,OAAO,WAAW;IACb,IAAI,GAAG,cAAc,CAAC;IACtB,OAAO,GAAG,YAAY,CAAC;IAEf,WAAW,CAAS;IACpB,eAAe,CAAS;IAEzC,YAAY,MAAyB;QACnC,IAAI,CAAC,WAAW,GAAG,MAAM,CAAC,WAAW,CAAC;QACtC,IAAI,CAAC,eAAe,GAAG,MAAM,CAAC,eAAe,CAAC;IAChD,CAAC;IAED,QAAQ,CAAC,GAAgE;QACvE,IAAI,GAAG,CAAC,IAAI,KAAK,YAAY;YAAE,OAAO,KAAK,CAAC;QAC5C,OAAO,GAAG,CAAC,UAAU,KAAK,mBAAmB,CAAC;IAChD,CAAC;IAED,KAAK,CAAC,OAAO;QACX,OAAO,EAAE,KAAK,EAAE,IAAI,EAAE,CAAC;IACzB,CAAC;IAED,KAAK,CAAC,GAAG,CAAC,GAAmB;QAC3B,MAAM,cAAc,GAAI,GAAG,CAAC,IAAI,CAAC,IAA4C,EAAE,CAAC,aAAa,CAAC,CAAC;QAC/F,IAAI,cAAc,KAAK,IAAI,CAAC,eAAe,EAAE,CAAC;YAC5C,MAAM,IAAI,KAAK,CACb,uCAAuC,MAAM,CAAC,cAAc,CAAC,8CAA8C,IAAI,CAAC,eAAe,EAAE,CAClI,CAAC;QACJ,CAAC;QACD,MAAM,SAAS,GAAG,IAAI,CAAC,IAAI,CAAC,IAAI,CAAC,WAAW,EAAE,GAAG,IAAI,CAAC,eAAe,QAAQ,CAAC,CAAC;QAC/E,MAAM,KAAK,GAAG,MAAM,EAAE,CAAC,QAAQ,CAAC,SAAS,EAAE,OAAO,CAAC,CAAC;QACpD,OAAO;YACL,QAAQ,EAAE,EAAE,IAAI,EAAE,IAAI,CAAC,IAAI,EAAE;YAC7B,MAAM,EAAE,EAAE;YACV,eAAe,EAAE;gBACf,aAAa,EAAE,4BAA4B;gBAC3C,KAAK;aACN;SACF,CAAC;IACJ,CAAC;CACF;AAED;;;;;;;;GAQG;AACH,MAAM,UAAU,6BAA6B;IAC3C,MAAM,eAAe,GAAG,OAAO,CAAC,GAAG,CAAC,4BAA4B,CAAC,CAAC;IAClE,IAAI,CAAC,eAAe;QAAE,OAAO,IAAI,CAAC;IAClC,IAAI,OAAO,CAAC,GAAG,CAAC,gBAAgB,CAAC,KAAK,GAAG,EAAE,CAAC;QAC1C,MAAM,IAAI,KAAK,CACb,2DAA2D;YACzD,mEAAmE;YACnE,wEAAwE;YACxE,yEAAyE;YACzE,mDAAmD,CACtD,CAAC;IACJ,CAAC;IACD,MAAM,WAAW,GACf,OAAO,CAAC,GAAG,CAAC,gCAAgC,CAAC;QAC7C,IAAI,CAAC,OAAO,CAAC,OAAO,CAAC,GAAG,EAAE,EAAE,MAAM,EAAE,SAAS,EAAE,QAAQ,EAAE,UAAU,CAAC,CAAC;IACvE,OAAO,IAAI,WAAW,CAAC,EAAE,eAAe,EAAE,WAAW,EAAE,CAAC,CAAC;AAC3D,CAAC"}

package/dist/harnesses/impls/swe-rebench-v2-evaluator/eval-runner.d.ts CHANGED Viewed

@@ -37,6 +37,36 @@ export declare class EvalCouldNotGradeError extends Error {
     readonly logExcerpt: string;
     constructor(reason: string, logExcerpt?: string);
 }
+/**
+ * Thrown by `runEval` when the disk cannot be brought above the eval
+ * disk-floor even after a broad prune. A clean abort — the caller stops
+ * gracefully; no instance is graded, nothing is marked. Distinct from
+ * `EvalCouldNotGradeError`: this is operator-environment, retryable, and must
+ * never be turned into a `scorable: false` admission (#476).
+ */
+export declare class InsufficientDiskError extends Error {
+    readonly freeBytes: number;
+    readonly floorBytes: number;
+    constructor(freeBytes: number, floorBytes: number);
+}
+/**
+ * Default free-disk floor required before an eval round: 20 GB. A single
+ * SWE-rebench eval image was observed to peak transiently at ~12.6 GB, so the
+ * floor clears the worst observed instance with real margin. Override with
+ * `JINN_EVAL_DISK_FLOOR_GB` on constrained hosts.
+ */
+export declare const DEFAULT_EVAL_DISK_FLOOR_BYTES = 20000000000;
+/** Resolve the disk floor: explicit option > `JINN_EVAL_DISK_FLOOR_GB` env > default. */
+export declare function resolveDiskFloorBytes(opt: number | undefined): number;
+/**
+ * Default wall-clock limit for one upstream eval.py invocation: 2 hours. Some
+ * linux/amd64 SWE-rebench images can wedge indefinitely under Apple Silicon
+ * emulation after a native crash, so the subprocess gets a hard guardrail.
+ * Override with `JINN_SWE_REBENCH_EVAL_TIMEOUT_MS`; set `0` to disable.
+ */
+export declare const DEFAULT_EVAL_TIMEOUT_MS: number;
+/** Resolve the eval timeout: explicit option > env > default. */
+export declare function resolveEvalTimeoutMs(opt: number | undefined): number;
 export interface PythonEvalRunnerOptions {
     /** Path to the cloned SWE-rebench-V2 repo (cached locally). */
     upstreamRepoDir: string;
@@ -45,66 +75,55 @@ export interface PythonEvalRunnerOptions {
     /** Workers for parallel eval (defaults to 1; we run one task at a time). */
     maxWorkers?: number;
     /**
-     * Max number of distinct eval images to keep in the local Docker cache.
-     * The runner tracks an in-process LRU keyed by image tag; once usage exceeds
-     * this cap, the least-recently-used images are removed via
-     * {@link PythonEvalRunnerOptions.cleanupImage}.
-     *
-     * The leaderboard pool has hundreds of unique instances at ~3 GB/image, so
-     * an unbounded cache fills operator disks in days (jinn-mono-uy6v.11).
+     * Removes a completed round's entire Docker footprint — the round's image,
+     * stopped containers, and build cache — so eval disk usage never
+     * accumulates across instances (#476). Called once per `runEval`, in a
+     * `finally`, even when the eval threw.
      *
-     * Default: `process.env.JINN_EVAL_IMAGE_CACHE_MAX` parsed as an integer, or
-     * `DEFAULT_EVAL_IMAGE_CACHE_MAX` (20) if unset/invalid.
+     * Defaults to {@link defaultPruneRound}. Implementations MUST NOT throw —
+     * `runEval` guards defensively, but cleanup failures should be swallowed
+     * (logged elsewhere if desired) so a flaky `docker` never escapes `runEval`.
      */
-    imageCacheMax?: number;
+    pruneRound?: (image: string) => Promise<void>;
     /**
-     * Removes an image from the local Docker cache (or no-ops if the operator
-     * has chosen not to GC). Called for each eviction from the LRU.
-     *
-     * Defaults to `docker rmi <image>` via the system `docker` binary. Test
-     * suites inject a stub to capture the eviction order without shelling out.
-     *
-     * Implementations MUST NOT throw — failures should be swallowed (logged
-     * elsewhere if desired) so a missing/failed `docker rmi` never escapes
-     * `runEval`. The runner enforces this defensively too.
+     * Resolves the eval image digest while the image is still local, before
+     * per-round pruning removes it. Defaults to `docker image inspect`.
+     */
+    resolveImageDigest?: (image: string) => Promise<string | null>;
+    /**
+     * Required free disk (bytes) before an eval round starts. Explicit value >
+     * `JINN_EVAL_DISK_FLOOR_GB` env > {@link DEFAULT_EVAL_DISK_FLOOR_BYTES}.
      */
-    cleanupImage?: (image: string) => Promise<void>;
+    diskFloorBytes?: number;
+    /** Probe of free disk (bytes). Defaults to a `statfs` on the temp dir. */
+    freeDiskBytes?: () => Promise<number>;
+    /**
+     * Broad reclaim invoked when free disk is below the floor. Defaults to
+     * `docker system prune -f`. MUST NOT throw.
+     */
+    systemPrune?: () => Promise<void>;
+    /**
+     * Wall-clock timeout (ms) for one upstream eval.py invocation. Explicit value
+     * > `JINN_SWE_REBENCH_EVAL_TIMEOUT_MS` env > {@link DEFAULT_EVAL_TIMEOUT_MS}.
+     * Set to 0 to disable.
+     */
+    evalTimeoutMs?: number;
 }
-/**
- * Default cap on the per-instance Docker image cache when no explicit
- * `imageCacheMax` and no `JINN_EVAL_IMAGE_CACHE_MAX` env var are configured.
- *
- * 20 images × ~3 GB/image ≈ 60 GB working set — small enough that even a
- * 256 GB disk has headroom, large enough that the steady-state loop on a
- * frequently-repeating subset of the pool rarely re-pulls.
- */
-export declare const DEFAULT_EVAL_IMAGE_CACHE_MAX = 20;
-export declare function resolveImageCacheMax(opt: number | undefined): number;
 export declare function matchInfraSignature(log: string): string | null;
 export declare class PythonEvalRunner implements EvalRunner {
     private readonly opts;
-    /**
-     * LRU of image tags whose Docker layers may be cached locally. Stored as a
-     * `Set<string>` because `Set` preserves insertion order; we delete-then-add
-     * to refresh recency and `next()` on the keys iterator to find the
-     * least-recently-used entry.
-     */
-    private readonly imageLru;
-    private readonly imageCacheMax;
-    private readonly cleanupImage;
+    private readonly pruneRound;
+    private readonly diskFloorBytes;
+    private readonly freeDiskBytes;
+    private readonly systemPrune;
+    private readonly resolveImageDigest;
+    private readonly evalTimeoutMs;
     constructor(opts: PythonEvalRunnerOptions);
-    runEval(args: Parameters<EvalRunner['runEval']>[0]): ReturnType<EvalRunner['runEval']>;
     /**
-     * Move `image` to the most-recently-used slot of the in-process LRU; if the
-     * set now exceeds {@link imageCacheMax}, evict the oldest entries via
-     * {@link cleanupImage}. Eviction failures are swallowed so a flaky
-     * `docker rmi` cannot escape `runEval`.
-     *
-     * The cap is enforced after the just-used image is inserted: the
-     * just-evaluated image is the *most* recent, so repeat-evals of recently
-     * used instances never re-pull. Only when more than N distinct images have
-     * been used does the oldest get rmi'd.
+     * Ensure enough free disk for an eval round. Below the floor → broad prune →
+     * re-probe; still below → `InsufficientDiskError` (clean abort). (#476)
      */
-    private recordImageUsage;
+    private ensureDiskHeadroom;
+    runEval(args: Parameters<EvalRunner['runEval']>[0]): ReturnType<EvalRunner['runEval']>;
     private runEvalImpl;
 }

package/dist/harnesses/impls/swe-rebench-v2-evaluator/eval-runner.js CHANGED Viewed

@@ -26,9 +26,10 @@
  *     re-raises as `SkippableError` (no signed verdict).
  */
 import { spawn } from 'node:child_process';
-import { mkdtemp, writeFile, readFile, rm } from 'node:fs/promises';
+import { mkdtemp, writeFile, readFile, rm, statfs } from 'node:fs/promises';
 import { tmpdir } from 'node:os';
 import { isAbsolute, join } from 'node:path';
+import { defaultCommandRunner, resolveImageDigest as resolveSubstrateImageDigest, } from '../../../solver-types/_swe-rebench-v2-substrate.js';
 /**
  * Thrown when the eval could not actually grade the solution. There is no
  * signal about the solver here, only about the operator's environment — the
@@ -46,62 +47,102 @@ export class EvalCouldNotGradeError extends Error {
     }
 }
 /**
- * Default cap on the per-instance Docker image cache when no explicit
- * `imageCacheMax` and no `JINN_EVAL_IMAGE_CACHE_MAX` env var are configured.
- *
- * 20 images × ~3 GB/image ≈ 60 GB working set — small enough that even a
- * 256 GB disk has headroom, large enough that the steady-state loop on a
- * frequently-repeating subset of the pool rarely re-pulls.
+ * Thrown by `runEval` when the disk cannot be brought above the eval
+ * disk-floor even after a broad prune. A clean abort — the caller stops
+ * gracefully; no instance is graded, nothing is marked. Distinct from
+ * `EvalCouldNotGradeError`: this is operator-environment, retryable, and must
+ * never be turned into a `scorable: false` admission (#476).
+ */
+export class InsufficientDiskError extends Error {
+    freeBytes;
+    floorBytes;
+    constructor(freeBytes, floorBytes) {
+        const gb = (n) => (n / 1_000_000_000).toFixed(1);
+        super(`insufficient disk for swe-rebench eval: ${gb(freeBytes)} GB free, ` +
+            `need ≥ ${gb(floorBytes)} GB`);
+        this.name = 'InsufficientDiskError';
+        this.freeBytes = freeBytes;
+        this.floorBytes = floorBytes;
+    }
+}
+/**
+ * Default free-disk floor required before an eval round: 20 GB. A single
+ * SWE-rebench eval image was observed to peak transiently at ~12.6 GB, so the
+ * floor clears the worst observed instance with real margin. Override with
+ * `JINN_EVAL_DISK_FLOOR_GB` on constrained hosts.
  */
-export const DEFAULT_EVAL_IMAGE_CACHE_MAX = 20;
-export function resolveImageCacheMax(opt) {
+export const DEFAULT_EVAL_DISK_FLOOR_BYTES = 20_000_000_000;
+/** Resolve the disk floor: explicit option > `JINN_EVAL_DISK_FLOOR_GB` env > default. */
+export function resolveDiskFloorBytes(opt) {
     if (typeof opt === 'number' && Number.isFinite(opt) && opt > 0)
         return Math.floor(opt);
-    const envRaw = process.env['JINN_EVAL_IMAGE_CACHE_MAX'];
+    const envRaw = process.env['JINN_EVAL_DISK_FLOOR_GB'];
     if (envRaw !== undefined) {
-        // `Number()` returns 0 for `""` / whitespace and NaN for strings with
-        // non-numeric content (e.g. `"garbage"`, `"1e3oops"`) — unlike `parseInt`,
-        // which would silently accept `parseInt("1e3oops") === 1`. Either way we
-        // reject anything that isn't a positive integer.
         const parsed = Number(envRaw);
-        if (Number.isFinite(parsed) && Number.isInteger(parsed) && parsed > 0)
-            return parsed;
-        // Surface the typo so operators discover it before the disk fills,
-        // rather than silently running on the default.
-        console.warn(`[swe-rebench-v2] JINN_EVAL_IMAGE_CACHE_MAX=${JSON.stringify(envRaw)} is not a positive integer — using default ${DEFAULT_EVAL_IMAGE_CACHE_MAX}`);
+        if (Number.isFinite(parsed) && parsed > 0)
+            return Math.floor(parsed * 1_000_000_000);
+        console.warn(`[swe-rebench-v2] JINN_EVAL_DISK_FLOOR_GB=${JSON.stringify(envRaw)} is not a positive ` +
+            `number — using default ${DEFAULT_EVAL_DISK_FLOOR_BYTES / 1_000_000_000} GB`);
     }
-    return DEFAULT_EVAL_IMAGE_CACHE_MAX;
+    return DEFAULT_EVAL_DISK_FLOOR_BYTES;
 }
 /**
- * Production `cleanupImage`: spawn `docker rmi <image>`. Errors are tolerated
- * — a missing/failed `docker rmi` is operationally survivable (the image
- * stays on disk; cache stays bloated for a while; not a correctness failure)
- * — but we warn on non-zero exit and on failed-to-spawn so a persistently-flaky
- * daemon (or a permission slip) becomes visible before disks fill. Silent
- * leaks were the original failure mode `jinn-mono-uy6v.11` exists to fix.
- *
- * We listen on `'exit'` rather than `'close'` and route stdio to `'ignore'`
- * so the resolve path doesn't depend on parent-side stream draining (which
- * can fail to fire `'close'` cleanly when piped without backpressure on the
- * right tick). The image tag + exit code is sufficient signal; operators can
- * grep the docker daemon log for the underlying reason.
+ * Default wall-clock limit for one upstream eval.py invocation: 2 hours. Some
+ * linux/amd64 SWE-rebench images can wedge indefinitely under Apple Silicon
+ * emulation after a native crash, so the subprocess gets a hard guardrail.
+ * Override with `JINN_SWE_REBENCH_EVAL_TIMEOUT_MS`; set `0` to disable.
  */
-function defaultCleanupImage(image) {
-    return new Promise((resolve) => {
-        const child = spawn('docker', ['rmi', image], { stdio: ['ignore', 'ignore', 'ignore'] });
-        child.on('exit', (code, signal) => {
-            if (code !== 0) {
-                const status = code !== null ? `exited ${code}` : `terminated by signal ${signal ?? 'unknown'}`;
-                console.warn(`[swe-rebench-v2] docker rmi ${image} ${status}`);
-            }
-            resolve();
-        });
-        child.on('error', (err) => {
-            console.warn(`[swe-rebench-v2] docker rmi ${image} failed to spawn: ${err.message}`);
-            resolve();
-        });
+export const DEFAULT_EVAL_TIMEOUT_MS = 2 * 60 * 60 * 1000;
+/** Resolve the eval timeout: explicit option > env > default. */
+export function resolveEvalTimeoutMs(opt) {
+    if (typeof opt === 'number' && Number.isFinite(opt) && opt >= 0)
+        return Math.floor(opt);
+    const envRaw = process.env['JINN_SWE_REBENCH_EVAL_TIMEOUT_MS'];
+    if (envRaw !== undefined) {
+        const parsed = Number(envRaw);
+        if (Number.isFinite(parsed) && parsed >= 0)
+            return Math.floor(parsed);
+        console.warn(`[swe-rebench-v2] JINN_SWE_REBENCH_EVAL_TIMEOUT_MS=${JSON.stringify(envRaw)} is not a ` +
+            `non-negative number — using default ${DEFAULT_EVAL_TIMEOUT_MS} ms`);
+    }
+    return DEFAULT_EVAL_TIMEOUT_MS;
+}
+/** Production disk probe: free bytes on the filesystem backing the temp dir. */
+async function defaultFreeDiskBytes() {
+    const s = await statfs(tmpdir());
+    return s.bavail * s.bsize;
+}
+/**
+ * Spawn `docker <args>`, resolving regardless of outcome — a failed cleanup
+ * command is logged, never thrown (#476: cleanup must not break the eval loop).
+ */
+function runDocker(args) {
+    return defaultCommandRunner('docker', args)
+        .then((res) => {
+        if (res.exitCode !== 0) {
+            const detail = (res.stderr || res.stdout).trim();
+            console.warn(`[swe-rebench-v2] docker ${args.join(' ')} exited ${res.exitCode}` +
+                `${detail ? `: ${detail.slice(-500)}` : ''}`);
+        }
+    })
+        .catch((err) => {
+        const reason = err instanceof Error ? err.message : String(err);
+        console.warn(`[swe-rebench-v2] docker ${args.join(' ')} failed to spawn: ${reason}`);
     });
 }
+/**
+ * Production `pruneRound`: remove the round's image, then prune stopped
+ * containers and build cache. Each step is best-effort.
+ */
+async function defaultPruneRound(image) {
+    if (image)
+        await runDocker(['rmi', '-f', image]);
+    await runDocker(['container', 'prune', '-f']);
+    await runDocker(['builder', 'prune', '-f']);
+}
+async function defaultResolveImageDigest(imageName) {
+    return resolveSubstrateImageDigest(imageName, defaultCommandRunner);
+}
 /**
  * Container-output signatures that mean the eval aborted before producing a
  * usable result — i.e. the operator's environment is the problem, not the
@@ -120,6 +161,7 @@ const INFRA_SIGNATURES = [
     { rx: /Failed building editable|Failed to build installable wheels/i, reason: 'install_build_failed' },
     { rx: /No virtual environment found/i, reason: 'venv_missing' },
     { rx: /exec format error|the requested image's platform .* does not match/i, reason: 'image_arch_mismatch' },
+    { rx: /Fatal Python error:\s*Illegal instruction|Illegal instruction(?:\s+\(core dumped\))?/i, reason: 'image_arch_mismatch' },
     // 2026-05-14 triage (jinn-mono-fufn) — failure fingerprints from real verdicts:
     { rx: /A virtual environment already exists at \S+\.venv\b/i, reason: 'venv_collision' },
     { rx: /No module named pytest\b/i, reason: 'pytest_missing' },
@@ -178,64 +220,62 @@ function buildTestCommands(args) {
 }
 export class PythonEvalRunner {
     opts;
-    /**
-     * LRU of image tags whose Docker layers may be cached locally. Stored as a
-     * `Set<string>` because `Set` preserves insertion order; we delete-then-add
-     * to refresh recency and `next()` on the keys iterator to find the
-     * least-recently-used entry.
-     */
-    imageLru = new Set();
-    imageCacheMax;
-    cleanupImage;
+    pruneRound;
+    diskFloorBytes;
+    freeDiskBytes;
+    systemPrune;
+    resolveImageDigest;
+    evalTimeoutMs;
     constructor(opts) {
         this.opts = opts;
-        this.imageCacheMax = resolveImageCacheMax(opts.imageCacheMax);
-        this.cleanupImage = opts.cleanupImage ?? defaultCleanupImage;
+        this.pruneRound = opts.pruneRound ?? defaultPruneRound;
+        this.diskFloorBytes = resolveDiskFloorBytes(opts.diskFloorBytes);
+        this.freeDiskBytes = opts.freeDiskBytes ?? defaultFreeDiskBytes;
+        this.systemPrune = opts.systemPrune ?? (() => runDocker(['system', 'prune', '-f']));
+        this.resolveImageDigest = opts.resolveImageDigest ?? defaultResolveImageDigest;
+        this.evalTimeoutMs = resolveEvalTimeoutMs(opts.evalTimeoutMs);
+    }
+    /**
+     * Ensure enough free disk for an eval round. Below the floor → broad prune →
+     * re-probe; still below → `InsufficientDiskError` (clean abort). (#476)
+     */
+    async ensureDiskHeadroom() {
+        const free = await this.freeDiskBytes();
+        if (free >= this.diskFloorBytes)
+            return;
+        console.warn(`[swe-rebench-v2] low disk (${(free / 1e9).toFixed(1)} GB) — running docker system prune`);
+        await this.systemPrune();
+        const afterPrune = await this.freeDiskBytes();
+        if (afterPrune < this.diskFloorBytes) {
+            throw new InsufficientDiskError(afterPrune, this.diskFloorBytes);
+        }
     }
     async runEval(args) {
+        await this.ensureDiskHeadroom();
         try {
-            return await this.runEvalImpl(args);
+            const result = await this.runEvalImpl(args);
+            let imageDigest = null;
+            try {
+                imageDigest = await this.resolveImageDigest(args.image);
+            }
+            catch (err) {
+                const reason = err instanceof Error ? err.message : String(err);
+                console.warn(`[swe-rebench-v2] resolveImageDigest failed for ${args.image}: ${reason}`);
+            }
+            return {
+                ...result,
+                ...(imageDigest ? { imageDigest } : {}),
+            };
         }
         finally {
-            // Always record the image and run GC — even when the eval threw. A
-            // pull-and-crash failure (Docker storage IO error, image_arch_mismatch,
-            // patch_corrupt, eval_no_report) still left an image on disk; we must
-            // count it toward the cache cap so the failure path can't leak the LRU.
-            await this.recordImageUsage(args.image);
-        }
-    }
-    /**
-     * Move `image` to the most-recently-used slot of the in-process LRU; if the
-     * set now exceeds {@link imageCacheMax}, evict the oldest entries via
-     * {@link cleanupImage}. Eviction failures are swallowed so a flaky
-     * `docker rmi` cannot escape `runEval`.
-     *
-     * The cap is enforced after the just-used image is inserted: the
-     * just-evaluated image is the *most* recent, so repeat-evals of recently
-     * used instances never re-pull. Only when more than N distinct images have
-     * been used does the oldest get rmi'd.
-     */
-    async recordImageUsage(image) {
-        if (!image)
-            return;
-        // Refresh recency: delete-then-add reinserts at the tail of the set.
-        this.imageLru.delete(image);
-        this.imageLru.add(image);
-        while (this.imageLru.size > this.imageCacheMax) {
-            const oldest = this.imageLru.values().next().value;
-            if (!oldest)
-                break;
-            this.imageLru.delete(oldest);
+            // Prune this round's full Docker footprint — even when the eval threw,
+            // a pull-and-crash still left an image on disk (#476).
             try {
-                await this.cleanupImage(oldest);
+                await this.pruneRound(args.image);
             }
             catch (err) {
-                // Best-effort GC: a failed rmi leaves the image on disk but mustn't
-                // break the loop. Warn so a flaky `docker` (or a permission slip)
-                // becomes visible before disks fill — silent leaks were the whole
-                // problem this bead exists to fix.
                 const reason = err instanceof Error ? err.message : String(err);
-                console.warn(`[swe-rebench-v2] eval-image cleanup failed for ${oldest}: ${reason}`);
+                console.warn(`[swe-rebench-v2] pruneRound failed for ${args.image}: ${reason}`);
             }
         }
     }
@@ -280,6 +320,7 @@ export class PythonEvalRunner {
         const child = spawn(this.opts.pythonBin ?? 'python3', pyArgs, {
             cwd: this.opts.upstreamRepoDir,
             stdio: ['ignore', 'pipe', 'pipe'],
+            detached: process.platform !== 'win32',
             // SWE-rebench eval images are published for linux/amd64. Pin the platform
             // so the upstream `docker run` is consistent on amd64 hosts and does not
             // silently crash under arm64 emulation on dev machines.
@@ -289,10 +330,54 @@ export class PythonEvalRunner {
         child.stderr.on('data', (d) => { stderr += d.toString(); });
         let stdout = '';
         child.stdout.on('data', (d) => { stdout += d.toString(); });
+        let timedOut = false;
+        let closed = false;
+        let killTimer;
+        const killChild = (signal) => {
+            const pid = child.pid;
+            if (!pid)
+                return;
+            try {
+                if (process.platform === 'win32') {
+                    child.kill(signal);
+                }
+                else {
+                    process.kill(-pid, signal);
+                }
+            }
+            catch {
+                try {
+                    child.kill(signal);
+                }
+                catch { }
+            }
+        };
+        const timeoutTimer = this.evalTimeoutMs > 0
+            ? setTimeout(() => {
+                timedOut = true;
+                killChild('SIGTERM');
+                killTimer = setTimeout(() => {
+                    if (!closed)
+                        killChild('SIGKILL');
+                }, 10_000);
+                killTimer.unref?.();
+            }, this.evalTimeoutMs)
+            : undefined;
+        timeoutTimer?.unref?.();
         const exitCode = await new Promise((resolve, reject) => {
             child.on('close', (code) => resolve(code ?? 1));
             child.on('error', reject);
+        }).finally(() => {
+            closed = true;
+            if (timeoutTimer)
+                clearTimeout(timeoutTimer);
+            if (killTimer)
+                clearTimeout(killTimer);
         });
+        if (timedOut) {
+            await rm(tmp, { recursive: true, force: true });
+            throw new EvalCouldNotGradeError('eval_timeout', `python eval timed out after ${this.evalTimeoutMs}ms; ${(stderr || stdout).slice(-800)}`);
+        }
         let report;
         try {
             report = JSON.parse(await readFile(reportPath, 'utf8'));