npm - @wix/evalforge-evaluator - Versions diffs - 0.146.0 → 0.148.0 - Mend

@wix/evalforge-evaluator 0.146.0 → 0.148.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

package/build/index.js +192 -62
package/build/index.js.map +3 -3
package/build/index.mjs +201 -66
package/build/index.mjs.map +3 -3
package/build/types/run-scenario/agents/claude-code/types.d.ts +15 -3
package/build/types/run-scenario/agents/opencode/config.d.ts +3 -0
package/build/types/run-scenario/agents/opencode/types.d.ts +8 -0
package/build/types/run-scenario/agents/simple-agent/execute.d.ts +1 -0
package/build/types/run-scenario/agents/simple-agent/mcp-tools.d.ts +0 -2
package/package.json +8 -7

package/build/index.mjs CHANGED Viewed

@@ -315,10 +315,10 @@ async function fetchEvaluationData(api, projectId2, evalRunId2) {
   if (evalRun.agentId) {
     agent = await api.getAgent(projectId2, evalRun.agentId);
   }
-  let skills = [];
-  let mcps = [];
-  let subAgents = [];
-  let rules = [];
+  const skills = [];
+  const mcps = [];
+  const subAgents = [];
+  const rules = [];
   if (evalRun.capabilityIds && evalRun.capabilityIds.length > 0) {
     const fetchResults = await Promise.allSettled(
       evalRun.capabilityIds.map((id) => api.getCapability(projectId2, id))
@@ -605,7 +605,7 @@ function getAdapter(identifier) {
 }
 // src/run-scenario/agents/claude-code/claude-code-adapter.ts
-import { AgentRunCommand } from "@wix/evalforge-types";
+import { AgentRunCommand, ClaudeCodeConfigSchema } from "@wix/evalforge-types";
 // src/run-scenario/agents/claude-code/execute.ts
 import {
@@ -1187,10 +1187,10 @@ async function executeWithClaudeCode(skills, scenario, options) {
   let lastAction = "Starting...";
   let lastToolName;
   let lastFilePath;
-  const maxTurns = options.maxTurns ?? 10;
+  const maxTurns = options.maxTurns || void 0;
   let messageCount = 0;
   const canUseTool = async (_toolName, input) => ({ behavior: "allow", updatedInput: input });
-  const baseAllowedTools = [
+  const baseAllowedTools = options.allowedTools ?? [
     "Skill",
     "Read",
     "Write",
@@ -1204,13 +1204,17 @@ async function executeWithClaudeCode(skills, scenario, options) {
   ];
   const allowedTools = (options.mcps?.length ?? 0) > 0 ? [...baseAllowedTools, "mcp__*"] : baseAllowedTools;
   const queryOptions = {
+    ...options.extras ?? {},
     env: sdkEnv,
     cwd: options.cwd,
     settingSources: ["project"],
     allowedTools,
+    ...options.disallowedTools?.length ? { disallowedTools: options.disallowedTools } : {},
     model: options.model || DEFAULT_MODEL,
     maxTurns,
     maxThinkingTokens: options.maxThinkingTokens,
+    ...options.effort ? { effort: options.effort } : {},
+    ...options.maxBudgetUsd != null ? { maxBudgetUsd: options.maxBudgetUsd } : {},
     // Use 'default' permission mode with custom canUseTool handler
     // instead of 'bypassPermissions' which fails on root
     permissionMode: "default",
@@ -1285,7 +1289,7 @@ async function executeWithClaudeCode(skills, scenario, options) {
       traceContext.authToken
     );
   }
-  const SDK_TIMEOUT_MS = Math.max(3e5, maxTurns * 6e4);
+  const SDK_TIMEOUT_MS = options.maxDurationMs ?? Math.max(3e5, (maxTurns ?? 10) * 6e4);
   let timeoutHandle;
   let timedOut = false;
   const HEARTBEAT_INTERVAL_MS = 1e4;
@@ -2049,7 +2053,7 @@ var ClaudeCodeAdapter = class {
       skills,
       scenario,
       cwd,
-      modelConfig,
+      config,
       aiGatewayUrl,
       aiGatewayHeaders,
       traceContext,
@@ -2058,20 +2062,37 @@ var ClaudeCodeAdapter = class {
       rules,
       systemPrompt
     } = context;
-    const modelForSdk = modelConfig?.model;
+    const typed = config ? ClaudeCodeConfigSchema.passthrough().safeParse(config) : void 0;
+    const cfg = typed?.success ? typed.data : void 0;
+    const schemaKeys = new Set(Object.keys(ClaudeCodeConfigSchema.shape));
+    const extras = {};
+    if (config) {
+      for (const [key, value] of Object.entries(config)) {
+        if (!schemaKeys.has(key)) extras[key] = value;
+      }
+    }
+    const rawMaxTurns = cfg?.maxTurns;
+    const maxTurns = rawMaxTurns === 0 ? void 0 : rawMaxTurns;
     const options = {
       cwd,
-      model: modelForSdk,
-      temperature: modelConfig?.temperature,
-      maxTokens: modelConfig?.maxTokens,
-      maxTurns: modelConfig?.maxTurns,
+      model: cfg?.model,
+      temperature: cfg?.temperature,
+      maxTokens: cfg?.maxTokens,
+      maxTurns,
+      maxThinkingTokens: cfg?.maxThinkingTokens,
+      allowedTools: cfg?.allowedTools,
+      disallowedTools: cfg?.disallowedTools,
+      effort: cfg?.effort,
+      maxBudgetUsd: cfg?.maxBudgetUsd,
+      maxDurationMs: cfg?.maxDurationMs,
       aiGatewayUrl,
       aiGatewayHeaders,
       traceContext,
       mcps,
       subAgents,
       rules,
-      systemPrompt
+      systemPrompt,
+      extras
     };
     const { result, llmTrace, conversation } = await executeWithClaudeCode(
       skills,
@@ -2098,7 +2119,7 @@ var claudeCodeAdapter = new ClaudeCodeAdapter();
 defaultRegistry.register(claudeCodeAdapter);
 // src/run-scenario/agents/opencode/opencode-adapter.ts
-import { AgentRunCommand as AgentRunCommand2 } from "@wix/evalforge-types";
+import { AgentRunCommand as AgentRunCommand2, OpenCodeConfigSchema as OpenCodeConfigSchema2 } from "@wix/evalforge-types";
 // src/run-scenario/agents/opencode/execute.ts
 import { spawn } from "child_process";
@@ -2216,21 +2237,34 @@ async function writeSubAgentsToFilesystem2(cwd, subAgents, fetchFn = fetchGitHub
 import { homedir as homedir2 } from "os";
 import {
   ClaudeModel as ClaudeModel2,
-  AVAILABLE_OPENAI_MODEL_IDS
+  AVAILABLE_OPENAI_MODEL_IDS,
+  AVAILABLE_GEMINI_MODEL_IDS,
+  OpenCodeConfigSchema
 } from "@wix/evalforge-types";
 var DEFAULT_MODEL2 = `${ClaudeModel2.CLAUDE_4_5_SONNET_1_0}`;
+var OPENCODE_MODEL_ALIASES = {
+  "claude-sonnet-4": "claude-sonnet-4-0",
+  "claude-opus-4": "claude-opus-4-0"
+};
 function parseModel(model) {
   const slashIndex = model.indexOf("/");
   if (slashIndex > 0) {
+    const providerID = model.slice(0, slashIndex);
+    const rawModelID = model.slice(slashIndex + 1);
     return {
-      providerID: model.slice(0, slashIndex),
-      modelID: model.slice(slashIndex + 1)
+      providerID,
+      modelID: OPENCODE_MODEL_ALIASES[rawModelID] ?? rawModelID
     };
   }
+  const modelID = OPENCODE_MODEL_ALIASES[model] ?? model;
   const isOpenAI = AVAILABLE_OPENAI_MODEL_IDS.includes(
     model
   );
-  return { providerID: isOpenAI ? "openai" : "anthropic", modelID: model };
+  const isGemini = AVAILABLE_GEMINI_MODEL_IDS.includes(
+    model
+  );
+  if (isGemini) return { providerID: "google", modelID };
+  return { providerID: isOpenAI ? "openai" : "anthropic", modelID };
 }
 function toOpenCodeMcpConfig(servers) {
   const result = {};
@@ -2281,8 +2315,9 @@ async function buildOpenCodeEnv(options) {
   const { providerID, modelID } = parseModel(modelStr);
   const provider = {};
   if (options.aiGatewayUrl) {
+    const proxyPath = providerID === "google" ? "gemini" : providerID;
     const providerOptions = {
-      baseURL: `${options.aiGatewayUrl}/proxy/${providerID}`,
+      baseURL: `${options.aiGatewayUrl}/proxy/${proxyPath}`,
       apiKey: "sk-placeholder-auth-handled-by-gateway"
     };
     if (options.aiGatewayHeaders) {
@@ -2313,20 +2348,26 @@ async function buildOpenCodeEnv(options) {
   if (options.temperature != null) {
     agentOverrides.temperature = options.temperature;
   }
-  if (options.maxTurns != null) {
+  if (options.topP != null) {
+    agentOverrides.top_p = options.topP;
+  }
+  if (options.maxTurns != null && options.maxTurns > 0) {
     agentOverrides.maxSteps = options.maxTurns;
   }
+  const parsed = options.config ? OpenCodeConfigSchema.passthrough().safeParse(options.config) : void 0;
+  const configPermission = parsed?.success ? parsed.data.permission : void 0;
+  const defaultPermission = {
+    "*": "allow"
+  };
+  const permission = {
+    ...defaultPermission,
+    ...configPermission
+  };
   const config = {
     model: `${providerID}/${modelID}`,
     provider,
     ...Object.keys(agentOverrides).length > 0 ? { agent: { build: agentOverrides } } : {},
-    permission: {
-      edit: "allow",
-      bash: "allow",
-      webfetch: "allow",
-      doom_loop: "allow",
-      external_directory: "allow"
-    },
+    permission,
     ...mcp ? { mcp } : {}
   };
   const env = {
@@ -3060,16 +3101,18 @@ async function executeWithOpenCode(skills, scenario, options) {
     hasAiGatewayHeaders: !!options.aiGatewayHeaders,
     model: options.model
   });
-  const maxTurns = options.maxTurns ?? 10;
-  const sdkTimeoutMs = Math.max(3e5, maxTurns * 6e4);
+  const maxTurns = options.maxTurns || void 0;
+  const sdkTimeoutMs = options.maxDurationMs ?? Math.max(3e5, (maxTurns ?? 10) * 6e4);
   const { env, providerID, modelID } = await buildOpenCodeEnv({
     model: options.model,
     temperature: options.temperature,
+    topP: options.topP,
     maxTurns,
     aiGatewayUrl: options.aiGatewayUrl,
     aiGatewayHeaders: options.aiGatewayHeaders,
     mcps: options.mcps,
-    cwd: options.cwd
+    cwd: options.cwd,
+    config: options.config
   });
   const startTime = /* @__PURE__ */ new Date();
   const traceContext = options.traceContext;
@@ -3097,13 +3140,13 @@ async function executeWithOpenCode(skills, scenario, options) {
       traceContext.authToken
     );
   }
+  const variant = options.thinkingVariant ?? "high";
+  const thinkingArgs = variant === "none" ? [] : ["--thinking", "--variant", variant];
   const baseArgs = [
     "run",
     "--format",
     "json",
-    "--thinking",
-    "--variant",
-    "high",
+    ...thinkingArgs,
     "--model",
     `${providerID}/${modelID}`,
     "--dir",
@@ -3294,7 +3337,7 @@ var OpenCodeAdapter = class {
       skills,
       scenario,
       cwd,
-      modelConfig,
+      config,
       aiGatewayUrl,
       aiGatewayHeaders,
       traceContext,
@@ -3303,18 +3346,26 @@ var OpenCodeAdapter = class {
       rules,
       systemPrompt
     } = context;
+    const typed = config ? OpenCodeConfigSchema2.passthrough().safeParse(config) : void 0;
+    const cfg = typed?.success ? typed.data : void 0;
+    const rawMaxTurns = cfg?.maxTurns;
+    const maxTurns = rawMaxTurns === 0 ? void 0 : rawMaxTurns;
     const options = {
       cwd,
-      model: modelConfig?.model,
-      temperature: modelConfig?.temperature,
-      maxTurns: modelConfig?.maxTurns,
+      model: cfg?.model,
+      temperature: cfg?.temperature,
+      topP: cfg?.topP,
+      maxTurns,
+      thinkingVariant: cfg?.thinkingVariant,
+      maxDurationMs: cfg?.maxDurationMs,
       aiGatewayUrl,
       aiGatewayHeaders,
       traceContext,
       mcps,
       subAgents,
       rules,
-      systemPrompt
+      systemPrompt,
+      config
     };
     const { result, llmTrace, conversation } = await executeWithOpenCode(
       skills,
@@ -3346,12 +3397,16 @@ import {
   stepCountIs
 } from "ai";
 import { createAnthropic } from "@ai-sdk/anthropic";
+import { createGoogleGenerativeAI } from "@ai-sdk/google";
 import { createOpenAI } from "@ai-sdk/openai";
 import {
   AVAILABLE_CLAUDE_MODEL_IDS,
+  AVAILABLE_GEMINI_MODEL_IDS as AVAILABLE_GEMINI_MODEL_IDS2,
+  GEMINI_THINKING_MODEL_IDS,
   OPENAI_RESPONSES_MODEL_IDS,
   LLMStepType as LLMStepType3,
-  LiveTraceEventType as LiveTraceEventType3
+  LiveTraceEventType as LiveTraceEventType3,
+  SimpleAgentConfigSchema
 } from "@wix/evalforge-types";
 import { randomUUID as randomUUID3 } from "crypto";
@@ -3373,8 +3428,9 @@ async function buildMcpTools(mcps, cwd) {
         const client = await createMCPClient({ transport });
         clients.push(client);
         const tools = await client.tools();
+        const safePrefix = serverName.replace(/[^a-zA-Z0-9]/g, "_");
         for (const [toolName, tool] of Object.entries(tools)) {
-          allTools[`${serverName}__${toolName}`] = tool;
+          allTools[`${safePrefix}_${toolName}`] = tool;
         }
       }
     }
@@ -3450,6 +3506,7 @@ function extractErrorText(content) {
 // src/run-scenario/agents/simple-agent/cost-calculation.ts
 import { normalizeModelId } from "@wix/evalforge-types";
 var PROVIDER_ANTHROPIC = "anthropic";
+var PROVIDER_GEMINI = "gemini";
 var MODEL_PRICING = {
   // Anthropic — Claude 4.6
   "claude-sonnet-4-6": { input: 3, output: 15 },
@@ -3476,7 +3533,18 @@ var MODEL_PRICING = {
   o3: { input: 2, output: 8 },
   "o4-mini": { input: 1.1, output: 4.4 },
   "o3-mini": { input: 1.1, output: 4.4 },
-  o1: { input: 15, output: 60 }
+  o1: { input: 15, output: 60 },
+  // Google Gemini 2.0
+  "gemini-2.0-flash": { input: 0.1, output: 0.4 },
+  "gemini-2.0-flash-lite": { input: 0.075, output: 0.3 },
+  // Google Gemini 2.5
+  "gemini-2.5-pro": { input: 1.25, output: 10 },
+  "gemini-2.5-flash": { input: 0.15, output: 0.6 },
+  "gemini-2.5-flash-lite": { input: 0.075, output: 0.3 },
+  // Google Gemini 3.x — standard pricing up to 200K context tokens
+  "gemini-3-pro-preview": { input: 2, output: 12 },
+  "gemini-3-flash-preview": { input: 0.5, output: 3 },
+  "gemini-3.1-pro-preview": { input: 2, output: 12 }
 };
 function extractGatewayCost(step, provider) {
   try {
@@ -3487,6 +3555,15 @@ function extractGatewayCost(step, provider) {
       const cost2 = usage?.total_cost_usd;
       return typeof cost2 === "number" && cost2 > 0 ? cost2 : void 0;
     }
+    if (provider === PROVIDER_GEMINI) {
+      const meta = step.providerMetadata;
+      const google = meta?.google;
+      const cost2 = google?.total_cost_usd;
+      if (typeof cost2 === "number" && cost2 > 0) return cost2;
+      const body2 = step.response?.body;
+      const bodyCost = body2?.total_cost_usd;
+      return typeof bodyCost === "number" && bodyCost > 0 ? bodyCost : void 0;
+    }
     const body = step.response?.body;
     const cost = body?.total_cost_usd;
     return typeof cost === "number" && cost > 0 ? cost : void 0;
@@ -3564,10 +3641,10 @@ function buildConversation3(triggerPrompt, steps, executionStartMs, stepTimestam
 // src/run-scenario/agents/simple-agent/execute.ts
 var PROVIDER_ANTHROPIC2 = "anthropic";
 var PROVIDER_OPENAI = "openai";
+var PROVIDER_GEMINI2 = "gemini";
 var DEFAULT_MAX_TOOL_STEPS = 25;
 function createModel(modelId, baseUrl, headers) {
-  const isClaudeModel = isClaudeModelId(modelId);
-  if (isClaudeModel) {
+  if (isClaudeModelId(modelId)) {
     const anthropic = createAnthropic({
       baseURL: `${baseUrl}/proxy/anthropic`,
       apiKey: "proxy-auth",
@@ -3575,6 +3652,14 @@ function createModel(modelId, baseUrl, headers) {
     });
     return anthropic(modelId);
   }
+  if (isGeminiModelId(modelId)) {
+    const google = createGoogleGenerativeAI({
+      baseURL: `${baseUrl}/proxy/gemini`,
+      apiKey: "proxy-auth",
+      headers
+    });
+    return google(modelId);
+  }
   const openai = createOpenAI({
     baseURL: `${baseUrl}/proxy/openai`,
     apiKey: "proxy-auth",
@@ -3592,6 +3677,11 @@ function isClaudeModelId(modelId) {
     (id) => modelId === id || modelId.startsWith(id)
   );
 }
+function isGeminiModelId(modelId) {
+  return AVAILABLE_GEMINI_MODEL_IDS2.some(
+    (id) => modelId === id || modelId.startsWith(id)
+  );
+}
 function extractSkillContent(files) {
   if (!files || files.length === 0) return void 0;
   const skillMd = files.find((f) => f.path === "SKILL.md");
@@ -3602,20 +3692,30 @@ async function executeWithAiSdk(context) {
   const {
     scenario,
     cwd,
-    modelConfig,
+    config,
     aiGatewayUrl,
     aiGatewayHeaders = {},
     mcps,
     traceContext
   } = context;
+  const typed = config ? SimpleAgentConfigSchema.passthrough().safeParse(config) : void 0;
+  const cfg = typed?.success ? typed.data : void 0;
+  const schemaKeys = new Set(Object.keys(SimpleAgentConfigSchema.shape));
+  const configExtras = {};
+  if (config) {
+    for (const [key, value] of Object.entries(config)) {
+      if (!schemaKeys.has(key)) configExtras[key] = value;
+    }
+  }
   if (!aiGatewayUrl) {
     throw new Error("Simple Agent requires aiGatewayUrl");
   }
-  if (!modelConfig?.model) {
-    throw new Error("Simple Agent requires a model in modelConfig");
+  if (!cfg?.model) {
+    throw new Error("Simple Agent requires a model in config");
   }
-  const model = createModel(modelConfig.model, aiGatewayUrl, aiGatewayHeaders);
-  const provider = isClaudeModelId(modelConfig.model) ? PROVIDER_ANTHROPIC2 : PROVIDER_OPENAI;
+  const modelId = cfg.model;
+  const model = createModel(modelId, aiGatewayUrl, aiGatewayHeaders);
+  const provider = isClaudeModelId(modelId) ? PROVIDER_ANTHROPIC2 : isGeminiModelId(modelId) ? PROVIDER_GEMINI2 : PROVIDER_OPENAI;
   const systemPrompt = composeSystemPrompt(context);
   const { tools: mcpTools, clients } = mcps && mcps.length > 0 ? await buildMcpTools(mcps, cwd) : { tools: void 0, clients: [] };
   const startTime = Date.now();
@@ -3625,13 +3725,17 @@ async function executeWithAiSdk(context) {
   try {
     const isAnthropic = provider === PROVIDER_ANTHROPIC2;
     const isResponsesAPI = [...OPENAI_RESPONSES_MODEL_IDS].some(
-      (id) => modelConfig.model === id || modelConfig.model.startsWith(id)
+      (id) => modelId === id || modelId.startsWith(id)
     );
-    const supportsThinking = isAnthropic || isResponsesAPI;
-    const providerOpts = {
+    const isGemini = provider === PROVIDER_GEMINI2;
+    const isGeminiThinking = isGemini && GEMINI_THINKING_MODEL_IDS.has(modelId);
+    const supportsThinking = isAnthropic || isResponsesAPI || isGeminiThinking;
+    const thinkingBudgetTokens = cfg.thinkingBudgetTokens ?? 1e4;
+    const reasoningEffort = cfg.reasoningEffort ?? "high";
+    const computedProviderOpts = {
       ...isAnthropic && {
         anthropic: {
-          thinking: { type: "enabled", budgetTokens: 1e4 }
+          thinking: { type: "enabled", budgetTokens: thinkingBudgetTokens }
         }
       },
       ...isResponsesAPI && {
@@ -3639,15 +3743,30 @@ async function executeWithAiSdk(context) {
           // Prevent the SDK from sending item_reference inputs that the proxy can't forward
           store: false,
           forceReasoning: true,
-          reasoningEffort: "high",
+          reasoningEffort,
           reasoningSummary: "detailed"
         }
+      },
+      ...isGeminiThinking && {
+        google: {
+          thinkingConfig: {
+            includeThoughts: true,
+            thinkingBudget: 1e4
+          }
+        }
       }
     };
+    const { providerOptions: extraProviderOptions, ...topLevelExtras } = configExtras;
+    const mergedProviderOptions = {
+      ...extraProviderOptions && typeof extraProviderOptions === "object" ? extraProviderOptions : {},
+      ...computedProviderOpts
+    };
     const stepTimestamps = [];
+    const effectiveMaxTurns = cfg.maxTurns === 0 ? void 0 : cfg.maxTurns ?? DEFAULT_MAX_TOOL_STEPS;
     const { triggerPromptImages } = context;
     const hasImages = triggerPromptImages && triggerPromptImages.length > 0;
-    const generateTextParams = {
+    const result = await generateText({
+      ...topLevelExtras,
       model,
       system: systemPrompt,
       ...hasImages ? {
@@ -3665,11 +3784,16 @@ async function executeWithAiSdk(context) {
           }
         ]
       } : { prompt: scenario.triggerPrompt },
-      temperature: supportsThinking ? void 0 : modelConfig.temperature,
-      maxOutputTokens: modelConfig.maxTokens,
+      temperature: supportsThinking ? void 0 : cfg.temperature,
+      topP: supportsThinking ? void 0 : cfg.topP,
+      frequencyPenalty: cfg.frequencyPenalty,
+      presencePenalty: cfg.presencePenalty,
+      seed: cfg.seed,
+      stopSequences: cfg.stopSequences,
+      maxOutputTokens: cfg.maxTokens,
       tools: mcpTools,
-      stopWhen: mcpTools ? stepCountIs(modelConfig.maxTurns ?? DEFAULT_MAX_TOOL_STEPS) : stepCountIs(1),
-      providerOptions: providerOpts,
+      ...mcpTools && effectiveMaxTurns != null ? { stopWhen: stepCountIs(effectiveMaxTurns) } : !mcpTools ? { stopWhen: stepCountIs(1) } : {},
+      providerOptions: mergedProviderOptions,
       onStepFinish: (step) => {
         stepTimestamps.push(Date.now());
         if (traceContext) {
@@ -3697,8 +3821,7 @@ async function executeWithAiSdk(context) {
           );
         }
       }
-    };
-    const result = await generateText(generateTextParams);
+    });
     const durationMs = Date.now() - startTime;
     const usage = {
       inputTokens: result.usage.inputTokens ?? 0,
@@ -3709,7 +3832,7 @@ async function executeWithAiSdk(context) {
       result.steps,
       durationMs,
       usage,
-      modelConfig.model,
+      modelId,
       provider,
       startTime,
       stepTimestamps
@@ -4622,11 +4745,12 @@ async function runAgentWithContext(config, evalRunId2, scenario, evalData, workD
   const startedAt = (/* @__PURE__ */ new Date()).toISOString();
   const targetId = evalData.evalRun.presetId ?? agent?.id ?? evalData.evalRun.id;
   const targetName = evalData.presetName || agent?.name || "";
+  const agentConfig = agent?.config;
   const executionContext = {
     skills: evalData.skills,
     scenario,
     cwd: workDir || process.cwd(),
-    modelConfig: agent?.modelConfig,
+    config: agentConfig,
     aiGatewayUrl: config.aiGatewayUrl,
     aiGatewayHeaders: config.aiGatewayHeaders,
     traceContext: {
@@ -4661,7 +4785,18 @@ async function runAgentWithContext(config, evalRunId2, scenario, evalData, workD
     infrastructurePaths
   );
   const templateFiles = workDir ? extractTemplateFiles(beforeSnapshot, afterSnapshot, infrastructurePaths) : void 0;
-  const resolvedModelConfig = agent?.modelConfig ?? (llmTrace?.summary.modelsUsed?.[0] ? { model: llmTrace.summary.modelsUsed[0] } : void 0);
+  const snapshotModelConfig = agentConfig?.model ? {
+    model: agentConfig.model,
+    ...agentConfig.temperature != null && {
+      temperature: agentConfig.temperature
+    },
+    ...agentConfig.maxTokens != null && {
+      maxTokens: agentConfig.maxTokens
+    },
+    ...agentConfig.maxTurns != null && {
+      maxTurns: agentConfig.maxTurns
+    }
+  } : agent?.modelConfig ?? (llmTrace?.summary.modelsUsed?.[0] ? { model: llmTrace.summary.modelsUsed[0] } : void 0);
   return {
     id: randomUUID4(),
     targetId,
@@ -4669,7 +4804,7 @@ async function runAgentWithContext(config, evalRunId2, scenario, evalData, workD
     scenarioId: scenario.id,
     scenarioName: scenario.name,
     triggerPrompt: scenario.triggerPrompt,
-    modelConfig: resolvedModelConfig,
+    modelConfig: snapshotModelConfig,
     duration: durationMs,
     outputText,
     fileDiffs: fileDiffs.length > 0 ? fileDiffs : void 0,