npm - @agentv/core - Versions diffs - 2.0.1 → 2.0.2 - Mend

@agentv/core 2.0.1 → 2.0.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

package/dist/{chunk-IBTKEEOT.js → chunk-KDEP4I7G.js} +44 -1
package/dist/chunk-KDEP4I7G.js.map +1 -0
package/dist/evaluation/validation/index.cjs +1 -0
package/dist/evaluation/validation/index.cjs.map +1 -1
package/dist/evaluation/validation/index.js +1 -1
package/dist/index.cjs +209 -42
package/dist/index.cjs.map +1 -1
package/dist/index.d.cts +16 -30
package/dist/index.d.ts +16 -30
package/dist/index.js +168 -41
package/dist/index.js.map +1 -1
package/package.json +4 -1
package/dist/chunk-IBTKEEOT.js.map +0 -1

package/dist/index.d.cts CHANGED Viewed

@@ -396,7 +396,7 @@ interface ChatMessage {
     readonly name?: string;
 }
 type ChatPrompt = readonly ChatMessage[];
-type ProviderKind = 'azure' | 'anthropic' | 'gemini' | 'codex' | 'pi-coding-agent' | 'claude-code' | 'cli' | 'mock' | 'vscode' | 'vscode-insiders';
+type ProviderKind = 'azure' | 'anthropic' | 'gemini' | 'codex' | 'pi-coding-agent' | 'pi-agent-sdk' | 'claude-code' | 'cli' | 'mock' | 'vscode' | 'vscode-insiders';
 interface ProviderRequest {
     readonly question: string;
     readonly systemPrompt?: string;
@@ -805,6 +805,13 @@ interface PiCodingAgentResolvedConfig {
     readonly logFormat?: 'summary' | 'json';
     readonly systemPrompt?: string;
 }
+interface PiAgentSdkResolvedConfig {
+    readonly provider?: string;
+    readonly model?: string;
+    readonly apiKey?: string;
+    readonly timeoutMs?: number;
+    readonly systemPrompt?: string;
+}
 interface ClaudeCodeResolvedConfig {
     readonly executable: string;
     readonly model?: string;
@@ -863,6 +870,13 @@ type ResolvedTarget = {
     readonly workers?: number;
     readonly providerBatching?: boolean;
     readonly config: PiCodingAgentResolvedConfig;
+} | {
+    readonly kind: 'pi-agent-sdk';
+    readonly name: string;
+    readonly judgeTarget?: string;
+    readonly workers?: number;
+    readonly providerBatching?: boolean;
+    readonly config: PiAgentSdkResolvedConfig;
 } | {
     readonly kind: 'claude-code';
     readonly name: string;
@@ -1211,37 +1225,9 @@ interface GenerateRubricsOptions {
  */
 declare function generateRubrics(options: GenerateRubricsOptions): Promise<readonly RubricItem[]>;
-/**
- * Payload received by code judges via stdin.
- * All properties use camelCase for TypeScript ergonomics.
- */
-interface CodeJudgePayload {
-    readonly question: string;
-    readonly expectedOutcome: string;
-    readonly expectedMessages: readonly JsonObject[];
-    readonly referenceAnswer?: string;
-    readonly candidateAnswer: string;
-    readonly outputMessages?: readonly OutputMessage[] | null;
-    readonly guidelineFiles: readonly string[];
-    readonly inputFiles: readonly string[];
-    readonly inputMessages: readonly TestMessage[];
-    readonly traceSummary?: TraceSummary | null;
-    readonly config?: JsonObject | null;
-}
-/**
- * Parse stdin JSON (snake_case) into typed camelCase object.
- * Use this in TypeScript code judges to get type-safe, idiomatic input.
- */
-declare function parseCodeJudgePayload(payload: string): CodeJudgePayload;
-/**
- * Convenience helper that reads stdin and parses it.
- * Equivalent to: parseCodeJudgePayload(readFileSync(0, 'utf8'))
- */
-declare function readCodeJudgePayload(): CodeJudgePayload;
 type AgentKernel = {
     status: string;
 };
 declare function createAgentKernel(): AgentKernel;
-export { type AgentKernel, type AnthropicResolvedConfig, type AssistantTestMessage, type AzureResolvedConfig, type ChildEvaluatorResult, type ClaudeCodeResolvedConfig, type CliResolvedConfig, CodeEvaluator, type CodeEvaluatorConfig, type CodeEvaluatorOptions, type CodeJudgePayload, type CompositeAggregatorConfig, CompositeEvaluator, type CompositeEvaluatorConfig, type CompositeEvaluatorOptions, CostEvaluator, type CostEvaluatorConfig, type CostEvaluatorOptions, DEFAULT_EXPLORATION_TOOLS, type EnsureSubagentsOptions, type EnsureSubagentsResult, type EnvLookup, type EvalCase, type EvaluationCache, type EvaluationContext, type EvaluationResult, type EvaluationScore, type EvaluationVerdict, type Evaluator, type EvaluatorConfig, type EvaluatorFactory, type EvaluatorKind, type EvaluatorResult, type ExecutionMetrics, FieldAccuracyEvaluator, type FieldAccuracyEvaluatorConfig, type FieldAccuracyEvaluatorOptions, type FieldAggregationType, type FieldConfig, type FieldMatchType, type GeminiResolvedConfig, type GenerateRubricsOptions, type JsonObject, type JsonPrimitive, type JsonValue, LatencyEvaluator, type LatencyEvaluatorConfig, type LatencyEvaluatorOptions, LlmJudgeEvaluator, type LlmJudgeEvaluatorConfig, type LlmJudgeEvaluatorOptions, type MockResolvedConfig, type PiCodingAgentResolvedConfig, type ProgressEvent, type PromptInputs, type Provider, type ProviderKind, type ProviderRequest, type ProviderResponse, type ProviderTokenUsage, type ResolvedTarget, type RubricItem, type RunEvalCaseOptions, type RunEvaluationOptions, type SystemTestMessage, TEST_MESSAGE_ROLES, type TargetDefinition, type TestMessage, type TestMessageContent, type TestMessageRole, type TokenUsage, TokenUsageEvaluator, type TokenUsageEvaluatorConfig, type TokenUsageEvaluatorOptions, type ToolTestMessage, ToolTrajectoryEvaluator, type ToolTrajectoryEvaluatorConfig, type ToolTrajectoryEvaluatorOptions, type ToolTrajectoryExpectedItem, type TraceSummary, type UserTestMessage, type VSCodeResolvedConfig, avgToolDurationMs, buildDirectoryChain, buildPromptInputs, buildSearchRoots, computeTraceSummary, consumeClaudeCodeLogEntries, consumeCodexLogEntries, consumePiLogEntries, createAgentKernel, createProvider, ensureVSCodeSubagents, explorationRatio, extractCodeBlocks, fileExists, findGitRoot, generateRubrics, getHitCount, isEvaluatorKind, isGuidelineFile, isJsonObject, isJsonValue, isTestMessage, isTestMessageRole, listTargetNames, loadEvalCases, mergeExecutionMetrics, normalizeLineEndings, parseCodeJudgePayload, readCodeJudgePayload, readJsonFile, readTargetDefinitions, readTestSuiteMetadata, readTextFile, resolveAndCreateProvider, resolveFileReference, resolveTargetDefinition, runEvalCase, runEvaluation, subscribeToClaudeCodeLogEntries, subscribeToCodexLogEntries, subscribeToPiLogEntries, tokensPerTool };
+export { type AgentKernel, type AnthropicResolvedConfig, type AssistantTestMessage, type AzureResolvedConfig, type ChildEvaluatorResult, type ClaudeCodeResolvedConfig, type CliResolvedConfig, CodeEvaluator, type CodeEvaluatorConfig, type CodeEvaluatorOptions, type CompositeAggregatorConfig, CompositeEvaluator, type CompositeEvaluatorConfig, type CompositeEvaluatorOptions, CostEvaluator, type CostEvaluatorConfig, type CostEvaluatorOptions, DEFAULT_EXPLORATION_TOOLS, type EnsureSubagentsOptions, type EnsureSubagentsResult, type EnvLookup, type EvalCase, type EvaluationCache, type EvaluationContext, type EvaluationResult, type EvaluationScore, type EvaluationVerdict, type Evaluator, type EvaluatorConfig, type EvaluatorFactory, type EvaluatorKind, type EvaluatorResult, type ExecutionMetrics, FieldAccuracyEvaluator, type FieldAccuracyEvaluatorConfig, type FieldAccuracyEvaluatorOptions, type FieldAggregationType, type FieldConfig, type FieldMatchType, type GeminiResolvedConfig, type GenerateRubricsOptions, type JsonObject, type JsonPrimitive, type JsonValue, LatencyEvaluator, type LatencyEvaluatorConfig, type LatencyEvaluatorOptions, LlmJudgeEvaluator, type LlmJudgeEvaluatorConfig, type LlmJudgeEvaluatorOptions, type MockResolvedConfig, type PiAgentSdkResolvedConfig, type PiCodingAgentResolvedConfig, type ProgressEvent, type PromptInputs, type Provider, type ProviderKind, type ProviderRequest, type ProviderResponse, type ProviderTokenUsage, type ResolvedTarget, type RubricItem, type RunEvalCaseOptions, type RunEvaluationOptions, type SystemTestMessage, TEST_MESSAGE_ROLES, type TargetDefinition, type TestMessage, type TestMessageContent, type TestMessageRole, type TokenUsage, TokenUsageEvaluator, type TokenUsageEvaluatorConfig, type TokenUsageEvaluatorOptions, type ToolTestMessage, ToolTrajectoryEvaluator, type ToolTrajectoryEvaluatorConfig, type ToolTrajectoryEvaluatorOptions, type ToolTrajectoryExpectedItem, type TraceSummary, type UserTestMessage, type VSCodeResolvedConfig, avgToolDurationMs, buildDirectoryChain, buildPromptInputs, buildSearchRoots, computeTraceSummary, consumeClaudeCodeLogEntries, consumeCodexLogEntries, consumePiLogEntries, createAgentKernel, createProvider, ensureVSCodeSubagents, explorationRatio, extractCodeBlocks, fileExists, findGitRoot, generateRubrics, getHitCount, isEvaluatorKind, isGuidelineFile, isJsonObject, isJsonValue, isTestMessage, isTestMessageRole, listTargetNames, loadEvalCases, mergeExecutionMetrics, normalizeLineEndings, readJsonFile, readTargetDefinitions, readTestSuiteMetadata, readTextFile, resolveAndCreateProvider, resolveFileReference, resolveTargetDefinition, runEvalCase, runEvaluation, subscribeToClaudeCodeLogEntries, subscribeToCodexLogEntries, subscribeToPiLogEntries, tokensPerTool };

package/dist/index.d.ts CHANGED Viewed

@@ -396,7 +396,7 @@ interface ChatMessage {
     readonly name?: string;
 }
 type ChatPrompt = readonly ChatMessage[];
-type ProviderKind = 'azure' | 'anthropic' | 'gemini' | 'codex' | 'pi-coding-agent' | 'claude-code' | 'cli' | 'mock' | 'vscode' | 'vscode-insiders';
+type ProviderKind = 'azure' | 'anthropic' | 'gemini' | 'codex' | 'pi-coding-agent' | 'pi-agent-sdk' | 'claude-code' | 'cli' | 'mock' | 'vscode' | 'vscode-insiders';
 interface ProviderRequest {
     readonly question: string;
     readonly systemPrompt?: string;
@@ -805,6 +805,13 @@ interface PiCodingAgentResolvedConfig {
     readonly logFormat?: 'summary' | 'json';
     readonly systemPrompt?: string;
 }
+interface PiAgentSdkResolvedConfig {
+    readonly provider?: string;
+    readonly model?: string;
+    readonly apiKey?: string;
+    readonly timeoutMs?: number;
+    readonly systemPrompt?: string;
+}
 interface ClaudeCodeResolvedConfig {
     readonly executable: string;
     readonly model?: string;
@@ -863,6 +870,13 @@ type ResolvedTarget = {
     readonly workers?: number;
     readonly providerBatching?: boolean;
     readonly config: PiCodingAgentResolvedConfig;
+} | {
+    readonly kind: 'pi-agent-sdk';
+    readonly name: string;
+    readonly judgeTarget?: string;
+    readonly workers?: number;
+    readonly providerBatching?: boolean;
+    readonly config: PiAgentSdkResolvedConfig;
 } | {
     readonly kind: 'claude-code';
     readonly name: string;
@@ -1211,37 +1225,9 @@ interface GenerateRubricsOptions {
  */
 declare function generateRubrics(options: GenerateRubricsOptions): Promise<readonly RubricItem[]>;
-/**
- * Payload received by code judges via stdin.
- * All properties use camelCase for TypeScript ergonomics.
- */
-interface CodeJudgePayload {
-    readonly question: string;
-    readonly expectedOutcome: string;
-    readonly expectedMessages: readonly JsonObject[];
-    readonly referenceAnswer?: string;
-    readonly candidateAnswer: string;
-    readonly outputMessages?: readonly OutputMessage[] | null;
-    readonly guidelineFiles: readonly string[];
-    readonly inputFiles: readonly string[];
-    readonly inputMessages: readonly TestMessage[];
-    readonly traceSummary?: TraceSummary | null;
-    readonly config?: JsonObject | null;
-}
-/**
- * Parse stdin JSON (snake_case) into typed camelCase object.
- * Use this in TypeScript code judges to get type-safe, idiomatic input.
- */
-declare function parseCodeJudgePayload(payload: string): CodeJudgePayload;
-/**
- * Convenience helper that reads stdin and parses it.
- * Equivalent to: parseCodeJudgePayload(readFileSync(0, 'utf8'))
- */
-declare function readCodeJudgePayload(): CodeJudgePayload;
 type AgentKernel = {
     status: string;
 };
 declare function createAgentKernel(): AgentKernel;
-export { type AgentKernel, type AnthropicResolvedConfig, type AssistantTestMessage, type AzureResolvedConfig, type ChildEvaluatorResult, type ClaudeCodeResolvedConfig, type CliResolvedConfig, CodeEvaluator, type CodeEvaluatorConfig, type CodeEvaluatorOptions, type CodeJudgePayload, type CompositeAggregatorConfig, CompositeEvaluator, type CompositeEvaluatorConfig, type CompositeEvaluatorOptions, CostEvaluator, type CostEvaluatorConfig, type CostEvaluatorOptions, DEFAULT_EXPLORATION_TOOLS, type EnsureSubagentsOptions, type EnsureSubagentsResult, type EnvLookup, type EvalCase, type EvaluationCache, type EvaluationContext, type EvaluationResult, type EvaluationScore, type EvaluationVerdict, type Evaluator, type EvaluatorConfig, type EvaluatorFactory, type EvaluatorKind, type EvaluatorResult, type ExecutionMetrics, FieldAccuracyEvaluator, type FieldAccuracyEvaluatorConfig, type FieldAccuracyEvaluatorOptions, type FieldAggregationType, type FieldConfig, type FieldMatchType, type GeminiResolvedConfig, type GenerateRubricsOptions, type JsonObject, type JsonPrimitive, type JsonValue, LatencyEvaluator, type LatencyEvaluatorConfig, type LatencyEvaluatorOptions, LlmJudgeEvaluator, type LlmJudgeEvaluatorConfig, type LlmJudgeEvaluatorOptions, type MockResolvedConfig, type PiCodingAgentResolvedConfig, type ProgressEvent, type PromptInputs, type Provider, type ProviderKind, type ProviderRequest, type ProviderResponse, type ProviderTokenUsage, type ResolvedTarget, type RubricItem, type RunEvalCaseOptions, type RunEvaluationOptions, type SystemTestMessage, TEST_MESSAGE_ROLES, type TargetDefinition, type TestMessage, type TestMessageContent, type TestMessageRole, type TokenUsage, TokenUsageEvaluator, type TokenUsageEvaluatorConfig, type TokenUsageEvaluatorOptions, type ToolTestMessage, ToolTrajectoryEvaluator, type ToolTrajectoryEvaluatorConfig, type ToolTrajectoryEvaluatorOptions, type ToolTrajectoryExpectedItem, type TraceSummary, type UserTestMessage, type VSCodeResolvedConfig, avgToolDurationMs, buildDirectoryChain, buildPromptInputs, buildSearchRoots, computeTraceSummary, consumeClaudeCodeLogEntries, consumeCodexLogEntries, consumePiLogEntries, createAgentKernel, createProvider, ensureVSCodeSubagents, explorationRatio, extractCodeBlocks, fileExists, findGitRoot, generateRubrics, getHitCount, isEvaluatorKind, isGuidelineFile, isJsonObject, isJsonValue, isTestMessage, isTestMessageRole, listTargetNames, loadEvalCases, mergeExecutionMetrics, normalizeLineEndings, parseCodeJudgePayload, readCodeJudgePayload, readJsonFile, readTargetDefinitions, readTestSuiteMetadata, readTextFile, resolveAndCreateProvider, resolveFileReference, resolveTargetDefinition, runEvalCase, runEvaluation, subscribeToClaudeCodeLogEntries, subscribeToCodexLogEntries, subscribeToPiLogEntries, tokensPerTool };
+export { type AgentKernel, type AnthropicResolvedConfig, type AssistantTestMessage, type AzureResolvedConfig, type ChildEvaluatorResult, type ClaudeCodeResolvedConfig, type CliResolvedConfig, CodeEvaluator, type CodeEvaluatorConfig, type CodeEvaluatorOptions, type CompositeAggregatorConfig, CompositeEvaluator, type CompositeEvaluatorConfig, type CompositeEvaluatorOptions, CostEvaluator, type CostEvaluatorConfig, type CostEvaluatorOptions, DEFAULT_EXPLORATION_TOOLS, type EnsureSubagentsOptions, type EnsureSubagentsResult, type EnvLookup, type EvalCase, type EvaluationCache, type EvaluationContext, type EvaluationResult, type EvaluationScore, type EvaluationVerdict, type Evaluator, type EvaluatorConfig, type EvaluatorFactory, type EvaluatorKind, type EvaluatorResult, type ExecutionMetrics, FieldAccuracyEvaluator, type FieldAccuracyEvaluatorConfig, type FieldAccuracyEvaluatorOptions, type FieldAggregationType, type FieldConfig, type FieldMatchType, type GeminiResolvedConfig, type GenerateRubricsOptions, type JsonObject, type JsonPrimitive, type JsonValue, LatencyEvaluator, type LatencyEvaluatorConfig, type LatencyEvaluatorOptions, LlmJudgeEvaluator, type LlmJudgeEvaluatorConfig, type LlmJudgeEvaluatorOptions, type MockResolvedConfig, type PiAgentSdkResolvedConfig, type PiCodingAgentResolvedConfig, type ProgressEvent, type PromptInputs, type Provider, type ProviderKind, type ProviderRequest, type ProviderResponse, type ProviderTokenUsage, type ResolvedTarget, type RubricItem, type RunEvalCaseOptions, type RunEvaluationOptions, type SystemTestMessage, TEST_MESSAGE_ROLES, type TargetDefinition, type TestMessage, type TestMessageContent, type TestMessageRole, type TokenUsage, TokenUsageEvaluator, type TokenUsageEvaluatorConfig, type TokenUsageEvaluatorOptions, type ToolTestMessage, ToolTrajectoryEvaluator, type ToolTrajectoryEvaluatorConfig, type ToolTrajectoryEvaluatorOptions, type ToolTrajectoryExpectedItem, type TraceSummary, type UserTestMessage, type VSCodeResolvedConfig, avgToolDurationMs, buildDirectoryChain, buildPromptInputs, buildSearchRoots, computeTraceSummary, consumeClaudeCodeLogEntries, consumeCodexLogEntries, consumePiLogEntries, createAgentKernel, createProvider, ensureVSCodeSubagents, explorationRatio, extractCodeBlocks, fileExists, findGitRoot, generateRubrics, getHitCount, isEvaluatorKind, isGuidelineFile, isJsonObject, isJsonValue, isTestMessage, isTestMessageRole, listTargetNames, loadEvalCases, mergeExecutionMetrics, normalizeLineEndings, readJsonFile, readTargetDefinitions, readTestSuiteMetadata, readTextFile, resolveAndCreateProvider, resolveFileReference, resolveTargetDefinition, runEvalCase, runEvaluation, subscribeToClaudeCodeLogEntries, subscribeToCodexLogEntries, subscribeToPiLogEntries, tokensPerTool };

package/dist/index.js CHANGED Viewed

@@ -10,7 +10,7 @@ import {
   readTextFile,
   resolveFileReference,
   resolveTargetDefinition
-} from "./chunk-IBTKEEOT.js";
+} from "./chunk-KDEP4I7G.js";
 // src/evaluation/types.ts
 var TEST_MESSAGE_ROLE_VALUES = ["system", "user", "assistant", "tool"];
@@ -4084,6 +4084,167 @@ var MockProvider = class {
   }
 };
+// src/evaluation/providers/pi-agent-sdk.ts
+var piAgentModule = null;
+var piAiModule = null;
+async function loadPiModules() {
+  if (!piAgentModule || !piAiModule) {
+    try {
+      [piAgentModule, piAiModule] = await Promise.all([
+        import("@mariozechner/pi-agent"),
+        import("@mariozechner/pi-ai")
+      ]);
+    } catch (error) {
+      throw new Error(
+        `Failed to load pi-agent-sdk dependencies. Please install them:
+  npm install @mariozechner/pi-agent @mariozechner/pi-ai
+Original error: ${error instanceof Error ? error.message : String(error)}`
+      );
+    }
+  }
+  return {
+    Agent: piAgentModule.Agent,
+    ProviderTransport: piAgentModule.ProviderTransport,
+    getModel: piAiModule.getModel,
+    getEnvApiKey: piAiModule.getEnvApiKey
+  };
+}
+var PiAgentSdkProvider = class {
+  id;
+  kind = "pi-agent-sdk";
+  targetName;
+  supportsBatch = false;
+  config;
+  constructor(targetName, config) {
+    this.id = `pi-agent-sdk:${targetName}`;
+    this.targetName = targetName;
+    this.config = config;
+  }
+  async invoke(request) {
+    if (request.signal?.aborted) {
+      throw new Error("Pi agent SDK request was aborted before execution");
+    }
+    const { Agent, ProviderTransport, getModel, getEnvApiKey } = await loadPiModules();
+    const startTime = Date.now();
+    const providerName = this.config.provider ?? "anthropic";
+    const modelId = this.config.model ?? "claude-sonnet-4-20250514";
+    const model = getModel(providerName, modelId);
+    const systemPrompt = this.config.systemPrompt ?? "Answer directly and concisely.";
+    const transport = new ProviderTransport({
+      getApiKey: async (provider) => {
+        return this.config.apiKey ?? getEnvApiKey(provider) ?? void 0;
+      }
+    });
+    const agent = new Agent({
+      initialState: {
+        systemPrompt,
+        model,
+        tools: [],
+        // No tools for simple Q&A
+        messages: []
+      },
+      transport
+    });
+    const outputMessages = [];
+    let finalAssistantContent = "";
+    const unsubscribe = agent.subscribe((event) => {
+      if (event.type === "message_end") {
+        const msg = event.message;
+        if (msg.role === "assistant") {
+          const content = extractTextContent2(msg.content);
+          if (content) {
+            finalAssistantContent = content;
+          }
+        }
+      }
+    });
+    try {
+      const timeoutMs = this.config.timeoutMs ?? 12e4;
+      const timeoutPromise = new Promise((_, reject) => {
+        setTimeout(
+          () => reject(new Error(`Pi agent SDK timed out after ${timeoutMs}ms`)),
+          timeoutMs
+        );
+      });
+      await Promise.race([agent.prompt(request.question), timeoutPromise]);
+      await agent.waitForIdle();
+      const agentMessages = agent.state.messages;
+      for (const msg of agentMessages) {
+        outputMessages.push(convertAgentMessage(msg));
+      }
+      const durationMs = Date.now() - startTime;
+      return {
+        raw: {
+          messages: agentMessages,
+          systemPrompt,
+          model: this.config.model,
+          provider: this.config.provider
+        },
+        outputMessages,
+        durationMs
+      };
+    } finally {
+      unsubscribe();
+    }
+  }
+};
+function extractTextContent2(content) {
+  if (typeof content === "string") {
+    return content;
+  }
+  if (!Array.isArray(content)) {
+    return void 0;
+  }
+  const textParts = [];
+  for (const part of content) {
+    if (!part || typeof part !== "object") {
+      continue;
+    }
+    const p = part;
+    if (p.type === "text" && typeof p.text === "string") {
+      textParts.push(p.text);
+    }
+  }
+  return textParts.length > 0 ? textParts.join("\n") : void 0;
+}
+function convertAgentMessage(message) {
+  if (!message || typeof message !== "object") {
+    return { role: "unknown", content: String(message) };
+  }
+  const msg = message;
+  const role = typeof msg.role === "string" ? msg.role : "unknown";
+  const content = extractTextContent2(msg.content);
+  const toolCalls = extractToolCalls2(msg.content);
+  const timestamp = typeof msg.timestamp === "number" ? new Date(msg.timestamp).toISOString() : typeof msg.timestamp === "string" ? msg.timestamp : void 0;
+  return {
+    role,
+    content,
+    toolCalls: toolCalls.length > 0 ? toolCalls : void 0,
+    timestamp
+  };
+}
+function extractToolCalls2(content) {
+  if (!Array.isArray(content)) {
+    return [];
+  }
+  const toolCalls = [];
+  for (const part of content) {
+    if (!part || typeof part !== "object") {
+      continue;
+    }
+    const p = part;
+    if (p.type === "tool_use" && typeof p.name === "string") {
+      toolCalls.push({
+        tool: p.name,
+        input: p.input,
+        id: typeof p.id === "string" ? p.id : void 0
+      });
+    }
+  }
+  return toolCalls;
+}
 // src/evaluation/providers/pi-coding-agent.ts
 import { spawn as spawn3 } from "node:child_process";
 import { randomUUID as randomUUID3 } from "node:crypto";
@@ -4599,8 +4760,8 @@ function convertPiMessage(message) {
   if (typeof role !== "string") {
     return void 0;
   }
-  const content = extractTextContent2(msg.content);
-  const toolCalls = extractToolCalls2(msg.content);
+  const content = extractTextContent3(msg.content);
+  const toolCalls = extractToolCalls3(msg.content);
   const timestamp = typeof msg.timestamp === "number" ? new Date(msg.timestamp).toISOString() : typeof msg.timestamp === "string" ? msg.timestamp : void 0;
   const metadata = {};
   if (msg.api) metadata.api = msg.api;
@@ -4616,7 +4777,7 @@ function convertPiMessage(message) {
     metadata: Object.keys(metadata).length > 0 ? metadata : void 0
   };
 }
-function extractTextContent2(content) {
+function extractTextContent3(content) {
   if (typeof content === "string") {
     return content;
   }
@@ -4635,7 +4796,7 @@ function extractTextContent2(content) {
   }
   return textParts.length > 0 ? textParts.join("\n") : void 0;
 }
-function extractToolCalls2(content) {
+function extractToolCalls3(content) {
   if (!Array.isArray(content)) {
     return [];
   }
@@ -5130,6 +5291,8 @@ function createProvider(target) {
       return new CodexProvider(target.name, target.config);
     case "pi-coding-agent":
       return new PiCodingAgentProvider(target.name, target.config);
+    case "pi-agent-sdk":
+      return new PiAgentSdkProvider(target.name, target.config);
     case "claude-code":
       return new ClaudeCodeProvider(target.name, target.config);
     case "mock":
@@ -5297,12 +5460,6 @@ function toSnakeCase(str) {
   }
   return str.replace(/[A-Z]/g, (letter) => `_${letter.toLowerCase()}`);
 }
-function toCamelCase(str) {
-  if (/^[A-Z]/.test(str)) {
-    return str;
-  }
-  return str.replace(/_([a-z0-9])/g, (_, letter) => letter.toUpperCase());
-}
 function toSnakeCaseDeep(obj) {
   if (obj === null || obj === void 0) {
     return obj;
@@ -5320,23 +5477,6 @@ function toSnakeCaseDeep(obj) {
   }
   return obj;
 }
-function toCamelCaseDeep(obj) {
-  if (obj === null || obj === void 0) {
-    return obj;
-  }
-  if (Array.isArray(obj)) {
-    return obj.map((item) => toCamelCaseDeep(item));
-  }
-  if (typeof obj === "object") {
-    const result = {};
-    for (const [key, value] of Object.entries(obj)) {
-      const camelKey = toCamelCase(key);
-      result[camelKey] = toCamelCaseDeep(value);
-    }
-    return result;
-  }
-  return obj;
-}
 // src/evaluation/evaluators.ts
 var DEFAULT_EVALUATOR_TEMPLATE = `You are an expert evaluator. Your goal is to grade the candidate_answer based on how well it achieves the expected_outcome for the original task.
@@ -8081,17 +8221,6 @@ function buildPrompt(expectedOutcome, question, referenceAnswer) {
   return parts.join("\n");
 }
-// src/evaluation/code-judge-sdk.ts
-import { readFileSync } from "node:fs";
-function parseCodeJudgePayload(payload) {
-  const parsed = JSON.parse(payload);
-  return toCamelCaseDeep(parsed);
-}
-function readCodeJudgePayload() {
-  const stdin = readFileSync(0, "utf8");
-  return parseCodeJudgePayload(stdin);
-}
 // src/index.ts
 function createAgentKernel() {
   return { status: "stub" };
@@ -8134,8 +8263,6 @@ export {
   loadEvalCases,
   mergeExecutionMetrics,
   normalizeLineEndings,
-  parseCodeJudgePayload,
-  readCodeJudgePayload,
   readJsonFile,
   readTargetDefinitions,
   readTestSuiteMetadata,