npm - @desplega.ai/agent-swarm - Versions diffs - 1.79.4 → 1.80.0 - Mend

@desplega.ai/agent-swarm 1.79.4 → 1.80.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (49) hide show

package/openapi.json +98 -19
package/package.json +12 -6
package/src/be/db.ts +101 -30
package/src/be/migrations/063_cost_context_schema_relax.sql +133 -0
package/src/be/pricing-normalize.ts +81 -0
package/src/be/seed-pricing.ts +293 -0
package/src/commands/claude-managed-setup.ts +19 -3
package/src/commands/runner.ts +592 -237
package/src/http/context.ts +6 -2
package/src/http/index.ts +115 -68
package/src/http/session-data.ts +74 -23
package/src/otel-impl.ts +200 -0
package/src/otel.ts +127 -0
package/src/providers/claude-adapter.ts +30 -5
package/src/providers/claude-managed-adapter.ts +43 -17
package/src/providers/claude-managed-pricing.ts +34 -0
package/src/providers/codex-adapter.ts +38 -27
package/src/providers/codex-models.ts +22 -3
package/src/providers/devin-adapter.ts +11 -0
package/src/providers/opencode-adapter.ts +31 -7
package/src/providers/pi-mono-adapter.ts +39 -7
package/src/providers/pricing-sources.md +52 -0
package/src/providers/swarm-events-shared.ts +8 -4
package/src/providers/types.ts +33 -10
package/src/server.ts +6 -0
package/src/tests/claude-managed-adapter.test.ts +17 -3
package/src/tests/claude-managed-setup.test.ts +10 -1
package/src/tests/codex-adapter.test.ts +20 -19
package/src/tests/context-snapshot.test.ts +2 -2
package/src/tests/context-window.test.ts +65 -1
package/src/tests/devin-adapter.test.ts +2 -0
package/src/tests/http/context-routes.test.ts +161 -0
package/src/tests/migration-063-schema-relax.test.ts +109 -0
package/src/tests/opencode-adapter.test.ts +146 -1
package/src/tests/otel-impl-secret-scrubbing.test.ts +33 -0
package/src/tests/pages-view-count.test.ts +30 -5
package/src/tests/providers/codex-cost.test.ts +18 -0
package/src/tests/providers/opencode-cost.test.ts +74 -0
package/src/tests/providers/pi-cost.test.ts +128 -0
package/src/tests/secret-scrubber.test.ts +19 -0
package/src/tests/session-costs-codex-recompute.test.ts +35 -22
package/src/tests/session-costs-model-key-normalize.test.ts +271 -0
package/src/tests/session-costs-recompute-all-providers.test.ts +170 -0
package/src/tests/store-progress-cost.test.ts +6 -1
package/src/tools/store-progress.ts +16 -60
package/src/tools/utils.ts +65 -12
package/src/types.ts +62 -9
package/src/utils/context-window.ts +104 -4
package/src/utils/secret-scrubber.ts +7 -0

package/src/commands/runner.ts CHANGED Viewed

@@ -2,6 +2,15 @@ import { existsSync, statSync } from "node:fs";
 import { mkdir, readFile, stat, writeFile } from "node:fs/promises";
 import { ensure, initialize } from "@desplega.ai/business-use";
 import type { TemplateResponse } from "../../templates/schema.ts";
+import {
+  type Attributes,
+  initOtel,
+  injectTraceContext,
+  type SwarmSpan,
+  startSpan,
+  withSpan,
+  withSpanContext,
+} from "../otel.ts";
 import { type BasePromptArgs, getBasePrompt } from "../prompts/base-prompt.ts";
 import {
   generateDefaultClaudeMd,
@@ -15,6 +24,7 @@ import { authJsonToCredentialSelection } from "../providers/codex-oauth/auth-jso
 import {
   type CostData,
   createProviderAdapter,
+  type ProviderEvent,
   type ProviderResult,
   type ProviderSession,
   type ProviderSessionConfig,
@@ -1503,6 +1513,22 @@ async function registerAgent(opts: {
 /** Poll for triggers via HTTP API */
 async function pollForTrigger(opts: PollOptions): Promise<Trigger | null> {
+  return withSpan(
+    "worker.poll",
+    async (span) => {
+      const trigger = await pollForTriggerOnce(opts);
+      span.setAttribute("agentswarm.poll.result", trigger ? trigger.type : "empty");
+      return trigger;
+    },
+    {
+      "agent.id": opts.agentId,
+      "agentswarm.worker.poll_timeout_ms": opts.pollTimeout,
+      "agentswarm.worker.poll_interval_ms": opts.pollInterval,
+    },
+  );
+}
+async function pollForTriggerOnce(opts: PollOptions): Promise<Trigger | null> {
   const startTime = Date.now();
   const headers: Record<string, string> = {
     "X-Agent-ID": opts.agentId,
@@ -1510,6 +1536,7 @@ async function pollForTrigger(opts: PollOptions): Promise<Trigger | null> {
   if (opts.apiKey) {
     headers.Authorization = `Bearer ${opts.apiKey}`;
   }
+  injectTraceContext(headers);
   while (Date.now() - startTime < opts.pollTimeout) {
     try {
@@ -1739,6 +1766,157 @@ function extractToolKey(toolName: string, args: unknown): Record<string, string
   }
 }
+const OTEL_PREVIEW_LIMIT = 500;
+function telemetryPreview(value: unknown): string | undefined {
+  if (value === undefined) return undefined;
+  try {
+    const serialized = typeof value === "string" ? value : JSON.stringify(value);
+    if (!serialized) return undefined;
+    const scrubbed = scrubSecrets(serialized);
+    return scrubbed.length > OTEL_PREVIEW_LIMIT
+      ? `${scrubbed.slice(0, OTEL_PREVIEW_LIMIT)}...`
+      : scrubbed;
+  } catch {
+    return "[unserializable]";
+  }
+}
+type ToolTelemetry = {
+  kind: "mcp" | "harness" | "skill" | "agent" | "shell" | "file" | "unknown";
+  name: string;
+  normalizedName: string;
+  mcpServer?: string;
+  mcpTool?: string;
+};
+function classifyTool(toolName: string, args: unknown): ToolTelemetry {
+  const argRecord = args && typeof args === "object" ? (args as Record<string, unknown>) : {};
+  if (toolName.startsWith("mcp__")) {
+    const [, server, ...toolParts] = toolName.split("__");
+    const mcpTool = toolParts.join("__") || undefined;
+    return {
+      kind: "mcp",
+      name: toolName,
+      normalizedName: server && mcpTool ? `${server}.${mcpTool}` : toolName,
+      mcpServer: server,
+      mcpTool,
+    };
+  }
+  if (typeof argRecord.server === "string" && typeof argRecord.tool === "string") {
+    return {
+      kind: "mcp",
+      name: toolName,
+      normalizedName: `${argRecord.server}.${argRecord.tool}`,
+      mcpServer: argRecord.server,
+      mcpTool: argRecord.tool,
+    };
+  }
+  if (toolName.includes(":")) {
+    const [server, ...toolParts] = toolName.split(":");
+    const mcpTool = toolParts.join(":") || undefined;
+    return {
+      kind: "mcp",
+      name: toolName,
+      normalizedName: server && mcpTool ? `${server}.${mcpTool}` : toolName,
+      mcpServer: server,
+      mcpTool,
+    };
+  }
+  switch (toolName) {
+    case "Bash":
+    case "bash":
+    case "command_execution":
+      return { kind: "shell", name: toolName, normalizedName: toolName };
+    case "Read":
+    case "Edit":
+    case "Write":
+    case "Delete":
+    case "Grep":
+    case "Glob":
+    case "file_change":
+      return { kind: "file", name: toolName, normalizedName: toolName };
+    case "Skill":
+      return { kind: "skill", name: toolName, normalizedName: toolName };
+    case "Agent":
+      return { kind: "agent", name: toolName, normalizedName: toolName };
+    default:
+      return { kind: "harness", name: toolName, normalizedName: toolName };
+  }
+}
+function providerEventAttributes(event: ProviderEvent): Attributes {
+  switch (event.type) {
+    case "session_init":
+      return {
+        "agentswarm.provider.session_id": event.sessionId,
+        "agentswarm.provider.name": event.provider,
+        "agentswarm.provider.meta_preview": telemetryPreview(event.providerMeta),
+      };
+    case "message":
+      return {
+        "gen_ai.message.role": event.role,
+        "gen_ai.message.content_preview": telemetryPreview(event.content),
+      };
+    case "tool_start":
+    case "tool_end": {
+      const tool = classifyTool(
+        event.toolName,
+        event.type === "tool_start" ? event.args : undefined,
+      );
+      return {
+        "agentswarm.tool.name": tool.name,
+        "agentswarm.tool.normalized_name": tool.normalizedName,
+        "agentswarm.tool.kind": tool.kind,
+        "agentswarm.tool.call_id": event.toolCallId,
+        "mcp.server.name": tool.mcpServer,
+        "mcp.tool.name": tool.mcpTool,
+      };
+    }
+    case "result":
+      return {
+        "agentswarm.session.outcome": event.isError ? "error" : "ok",
+        "agentswarm.error.category": event.errorCategory,
+        "gen_ai.response.model": event.cost.model,
+        "gen_ai.usage.input_tokens": event.cost.inputTokens ?? 0,
+        "gen_ai.usage.output_tokens": event.cost.outputTokens ?? 0,
+        "agentswarm.cost.total_usd": event.cost.totalCostUsd ?? 0,
+      };
+    case "error":
+      return {
+        "agentswarm.error.category": event.category,
+        "exception.message": telemetryPreview(event.message),
+      };
+    case "progress":
+      return { "agentswarm.progress.message": telemetryPreview(event.message) };
+    case "context_usage":
+      return {
+        "agentswarm.context.used_tokens": event.contextUsedTokens ?? undefined,
+        "agentswarm.context.total_tokens": event.contextTotalTokens ?? undefined,
+        "agentswarm.context.percent": event.contextPercent ?? undefined,
+        "gen_ai.usage.output_tokens": event.outputTokens ?? undefined,
+      };
+    case "compaction":
+      return {
+        "agentswarm.compaction.trigger": event.compactTrigger,
+        "agentswarm.compaction.pre_tokens": event.preCompactTokens,
+        "agentswarm.context.total_tokens": event.contextTotalTokens,
+      };
+    case "custom":
+      return {
+        "agentswarm.provider.event_name": event.name,
+        "agentswarm.provider.event_data_preview": telemetryPreview(event.data),
+      };
+    case "raw_log":
+    case "raw_stderr":
+      return {};
+  }
+}
 async function spawnProviderProcess(
   adapter: ReturnType<typeof createProviderAdapter>,
   opts: {
@@ -1806,7 +1984,25 @@ async function spawnProviderProcess(
     env: freshEnv as Record<string, string>,
   };
-  const session = await adapter.createSession(config);
+  const session = await withSpan(
+    "worker.session.create",
+    async (span) => {
+      const createdSession = await adapter.createSession(config);
+      span.setAttribute("agentswarm.provider.session_id", createdSession.sessionId || "pending");
+      return createdSession;
+    },
+    {
+      "agent.id": opts.agentId,
+      "agentswarm.task.id": effectiveTaskId,
+      "agentswarm.task.real_id": realTaskId,
+      "agentswarm.agent.role": opts.role,
+      "agentswarm.harness_provider": opts.harnessProvider,
+      "gen_ai.request.model": model || undefined,
+      "agentswarm.session.cwd": config.cwd,
+      "agentswarm.session.vcs_repo": opts.vcsRepo,
+      "agentswarm.session.additional_args_count": opts.additionalArgs?.length ?? 0,
+    },
+  );
   const initialModelReport = buildLatestModelReport({
     model,
     taskModel: opts.model,
@@ -1884,6 +2080,25 @@ async function spawnProviderProcess(
   const eventFlushTimer = setInterval(flushEvents, EVENT_FLUSH_INTERVAL_MS);
   const sessionStartTime = Date.now();
+  let providerSessionId = session.sessionId;
+  const activeToolSpans = new Map<
+    string,
+    {
+      span: SwarmSpan;
+      startedAt: number;
+    }
+  >();
+  const sessionSpan = startSpan("worker.session", {
+    "agent.id": opts.agentId,
+    "agentswarm.task.id": effectiveTaskId,
+    "agentswarm.task.real_id": realTaskId,
+    "agentswarm.agent.role": opts.role,
+    "agentswarm.harness_provider": opts.harnessProvider,
+    "agentswarm.provider.session_id": providerSessionId,
+    "agentswarm.session.cwd": config.cwd,
+    "agentswarm.session.vcs_repo": opts.vcsRepo,
+    "gen_ai.request.model": model || undefined,
+  });
   // Auto-progress throttle: don't update more than once per 3 seconds
   let lastProgressTime = 0;
@@ -1892,130 +2107,236 @@ async function spawnProviderProcess(
   let lastContextPostTime = 0;
   const CONTEXT_THROTTLE_MS = 30_000;
-  session.onEvent((event) => {
-    switch (event.type) {
-      case "session_init":
-        if (realTaskId) {
-          saveProviderSessionId(
-            opts.apiUrl,
-            opts.apiKey,
-            realTaskId,
-            event.sessionId,
-            event.provider,
-            event.providerMeta,
-            model,
-          ).catch((err) => console.warn(`[runner] Failed to save session ID: ${err}`));
-        } else {
-          // Pool task: save provider session ID on active session so it can be
-          // propagated to the real task when the agent claims one
-          saveProviderSessionIdOnActiveSession(
-            opts.apiUrl,
-            opts.apiKey,
-            effectiveTaskId,
-            event.sessionId,
-          ).catch((err) =>
-            console.warn(`[runner] Failed to save provider session on active session: ${err}`),
-          );
-        }
-        // Buffer session start event
-        bufferEvent({
-          category: "session",
-          event: "session.start",
-          source: "worker",
-          agentId: opts.agentId,
-          taskId: effectiveTaskId,
-          sessionId: event.sessionId,
-        });
-        break;
-      case "tool_start": {
-        // Auto-progress: report tool activity as task progress (throttled)
-        const now = Date.now();
-        if (effectiveTaskId && opts.apiUrl && now - lastProgressTime >= PROGRESS_THROTTLE_MS) {
-          const progress = toolCallToProgress(event.toolName, event.args);
-          if (progress) {
-            lastProgressTime = now;
-            updateProgressViaAPI(opts.apiUrl, opts.apiKey, effectiveTaskId, progress).catch(
-              () => {},
+  // Phase 10: accumulate per-turn output tokens across the session so progress
+  // snapshots carry a real `cumulativeOutputTokens` (was 0 until completion).
+  let cumulativeProgressOutputTokens = 0;
+  session.onEvent((event) =>
+    withSpanContext(sessionSpan, () => {
+      sessionSpan.addEvent(`provider.${event.type}`, providerEventAttributes(event));
+      switch (event.type) {
+        case "session_init":
+          providerSessionId = event.sessionId;
+          sessionSpan.setAttributes({
+            "agentswarm.provider.session_id": providerSessionId,
+            "agentswarm.provider.name": event.provider,
+            "agentswarm.provider.meta_preview": telemetryPreview(event.providerMeta),
+          });
+          if (realTaskId) {
+            saveProviderSessionId(
+              opts.apiUrl,
+              opts.apiKey,
+              realTaskId,
+              event.sessionId,
+              event.provider,
+              event.providerMeta,
+              model,
+            ).catch((err) => console.warn(`[runner] Failed to save session ID: ${err}`));
+          } else {
+            // Pool task: save provider session ID on active session so it can be
+            // propagated to the real task when the agent claims one
+            saveProviderSessionIdOnActiveSession(
+              opts.apiUrl,
+              opts.apiKey,
+              effectiveTaskId,
+              event.sessionId,
+            ).catch((err) =>
+              console.warn(`[runner] Failed to save provider session on active session: ${err}`),
             );
           }
-        }
-        // Buffer tool event
-        bufferEvent({
-          category: "tool",
-          event: "tool.start",
-          source: "worker",
-          agentId: opts.agentId,
-          taskId: effectiveTaskId,
-          sessionId: opts.runnerSessionId,
-          data: {
-            toolName: event.toolName,
-            toolCallId: event.toolCallId,
-            ...extractToolKey(event.toolName, event.args),
-            clientTimestamp: new Date().toISOString(),
-          },
-        });
+          // Buffer session start event
+          bufferEvent({
+            category: "session",
+            event: "session.start",
+            source: "worker",
+            agentId: opts.agentId,
+            taskId: effectiveTaskId,
+            sessionId: event.sessionId,
+          });
+          break;
+        case "tool_start": {
+          const tool = classifyTool(event.toolName, event.args);
+          const toolSpan = startSpan(tool.kind === "mcp" ? "worker.mcp.tool" : "worker.tool", {
+            "agent.id": opts.agentId,
+            "agentswarm.task.id": effectiveTaskId,
+            "agentswarm.task.real_id": realTaskId,
+            "agentswarm.agent.role": opts.role,
+            "agentswarm.harness_provider": opts.harnessProvider,
+            "agentswarm.provider.session_id": providerSessionId,
+            "agentswarm.tool.name": tool.name,
+            "agentswarm.tool.normalized_name": tool.normalizedName,
+            "agentswarm.tool.kind": tool.kind,
+            "agentswarm.tool.call_id": event.toolCallId,
+            "mcp.server.name": tool.mcpServer,
+            "mcp.tool.name": tool.mcpTool,
+            "agentswarm.tool.args_preview": telemetryPreview(event.args),
+          });
+          activeToolSpans.set(event.toolCallId, {
+            span: toolSpan,
+            startedAt: Date.now(),
+          });
-        // Also emit skill event when tool is Skill
-        if (event.toolName === "Skill") {
-          const args = event.args as Record<string, unknown>;
+          // Auto-progress: report tool activity as task progress (throttled)
+          const now = Date.now();
+          if (effectiveTaskId && opts.apiUrl && now - lastProgressTime >= PROGRESS_THROTTLE_MS) {
+            const progress = toolCallToProgress(event.toolName, event.args);
+            if (progress) {
+              lastProgressTime = now;
+              updateProgressViaAPI(opts.apiUrl, opts.apiKey, effectiveTaskId, progress).catch(
+                () => {},
+              );
+            }
+          }
+          // Buffer tool event
           bufferEvent({
-            category: "skill",
-            event: "skill.invoke",
+            category: "tool",
+            event: "tool.start",
             source: "worker",
             agentId: opts.agentId,
             taskId: effectiveTaskId,
             sessionId: opts.runnerSessionId,
             data: {
-              skillName: args.skill as string,
+              toolName: event.toolName,
+              toolCallId: event.toolCallId,
+              ...extractToolKey(event.toolName, event.args),
               clientTimestamp: new Date().toISOString(),
             },
           });
+          // Also emit skill event when tool is Skill
+          if (event.toolName === "Skill") {
+            const args = event.args as Record<string, unknown>;
+            bufferEvent({
+              category: "skill",
+              event: "skill.invoke",
+              source: "worker",
+              agentId: opts.agentId,
+              taskId: effectiveTaskId,
+              sessionId: opts.runnerSessionId,
+              data: {
+                skillName: args.skill as string,
+                clientTimestamp: new Date().toISOString(),
+              },
+            });
+          }
+          break;
         }
-        break;
-      }
-      case "result":
-        {
-          const latestModel = buildLatestModelReport({
-            model: event.cost.model,
-            taskModel: opts.model,
-            configModel,
-            taskId: realTaskId,
-            harnessProvider: opts.harnessProvider,
+        case "tool_end": {
+          const active = activeToolSpans.get(event.toolCallId);
+          const now = Date.now();
+          if (active) {
+            active.span.setAttributes({
+              "agentswarm.tool.duration_ms": now - active.startedAt,
+              "agentswarm.tool.result_preview": telemetryPreview(event.result),
+            });
+            active.span.setStatus({ code: 1 });
+            active.span.end();
+            activeToolSpans.delete(event.toolCallId);
+          } else {
+            const tool = classifyTool(event.toolName, undefined);
+            const span = startSpan(tool.kind === "mcp" ? "worker.mcp.tool" : "worker.tool", {
+              "agent.id": opts.agentId,
+              "agentswarm.task.id": effectiveTaskId,
+              "agentswarm.task.real_id": realTaskId,
+              "agentswarm.agent.role": opts.role,
+              "agentswarm.harness_provider": opts.harnessProvider,
+              "agentswarm.provider.session_id": providerSessionId,
+              "agentswarm.tool.name": tool.name,
+              "agentswarm.tool.normalized_name": tool.normalizedName,
+              "agentswarm.tool.kind": tool.kind,
+              "agentswarm.tool.call_id": event.toolCallId,
+              "mcp.server.name": tool.mcpServer,
+              "mcp.tool.name": tool.mcpTool,
+              "agentswarm.tool.result_preview": telemetryPreview(event.result),
+              "agentswarm.tool.missing_start": true,
+            });
+            span.end();
+          }
+          break;
+        }
+        case "result":
+          {
+            const latestModel = buildLatestModelReport({
+              model: event.cost.model,
+              taskModel: opts.model,
+              configModel,
+              taskId: realTaskId,
+              harnessProvider: opts.harnessProvider,
+            });
+            if (latestModel) {
+              reportLatestModel(opts.apiUrl, opts.apiKey, opts.agentId, latestModel).catch((err) =>
+                console.warn(`[runner] Failed to report latest model: ${err}`),
+              );
+            }
+          }
+          // Cost save is handled in waitForCompletion().then() to ensure
+          // it completes before the process exits (fire-and-forget here
+          // races with container shutdown).
+          // Buffer session end event
+          bufferEvent({
+            category: "session",
+            event: "session.end",
+            source: "worker",
+            agentId: opts.agentId,
+            taskId: effectiveTaskId,
+            sessionId: opts.runnerSessionId,
+            status: event.isError ? "error" : "ok",
+            durationMs: Date.now() - sessionStartTime,
+            data: {
+              model: event.cost.model,
+              totalCostUsd: event.cost.totalCostUsd,
+              inputTokens: event.cost.inputTokens,
+              outputTokens: event.cost.outputTokens,
+            },
           });
-          if (latestModel) {
-            reportLatestModel(opts.apiUrl, opts.apiKey, opts.agentId, latestModel).catch((err) =>
-              console.warn(`[runner] Failed to report latest model: ${err}`),
-            );
+          break;
+        case "error":
+          sessionSpan.setStatus({
+            code: 2,
+            message: event.message,
+          });
+          break;
+        case "context_usage": {
+          const now2 = Date.now();
+          if (now2 - lastContextPostTime >= CONTEXT_THROTTLE_MS) {
+            lastContextPostTime = now2;
+            // Phase 10: track cumulative output tokens on the worker side and
+            // forward them on every progress snapshot. Previously these were
+            // 0 until the `completion` snapshot at session end, so the
+            // dashboard's "tokens consumed" line was a flat zero throughout.
+            cumulativeProgressOutputTokens += event.outputTokens ?? 0;
+            // For inputs we don't get a per-turn delta on the `context_usage`
+            // event (the unified formula bakes it into contextUsedTokens), so
+            // we report the latest contextUsedTokens as the running input proxy.
+            // The DB column is `cumulativeInputTokens` but the semantic on
+            // progress rows is "running used-tokens" — both inputs and outputs
+            // contribute, exact decomposition lives on the cost row.
+            fetch(`${opts.apiUrl}/api/tasks/${realTaskId}/context`, {
+              method: "POST",
+              headers: {
+                "Content-Type": "application/json",
+                "X-Agent-ID": opts.agentId,
+                Authorization: `Bearer ${opts.apiKey}`,
+              },
+              body: JSON.stringify({
+                eventType: "progress",
+                sessionId: opts.runnerSessionId,
+                contextUsedTokens: event.contextUsedTokens,
+                contextTotalTokens: event.contextTotalTokens,
+                contextPercent: event.contextPercent,
+                cumulativeInputTokens: event.contextUsedTokens,
+                cumulativeOutputTokens: cumulativeProgressOutputTokens,
+                contextFormula: event.contextFormula,
+              }),
+            }).catch(() => {});
           }
+          break;
         }
-        // Cost save is handled in waitForCompletion().then() to ensure
-        // it completes before the process exits (fire-and-forget here
-        // races with container shutdown).
-        // Buffer session end event
-        bufferEvent({
-          category: "session",
-          event: "session.end",
-          source: "worker",
-          agentId: opts.agentId,
-          taskId: effectiveTaskId,
-          sessionId: opts.runnerSessionId,
-          status: event.isError ? "error" : "ok",
-          durationMs: Date.now() - sessionStartTime,
-          data: {
-            model: event.cost.model,
-            totalCostUsd: event.cost.totalCostUsd,
-            inputTokens: event.cost.inputTokens,
-            outputTokens: event.cost.outputTokens,
-          },
-        });
-        break;
-      case "context_usage": {
-        const now2 = Date.now();
-        if (now2 - lastContextPostTime >= CONTEXT_THROTTLE_MS) {
-          lastContextPostTime = now2;
+        case "compaction": {
+          // Always record compaction events (no throttle)
           fetch(`${opts.apiUrl}/api/tasks/${realTaskId}/context`, {
             method: "POST",
             headers: {
@@ -2024,153 +2345,186 @@ async function spawnProviderProcess(
               Authorization: `Bearer ${opts.apiKey}`,
             },
             body: JSON.stringify({
-              eventType: "progress",
+              eventType: "compaction",
               sessionId: opts.runnerSessionId,
-              contextUsedTokens: event.contextUsedTokens,
+              preCompactTokens: event.preCompactTokens,
+              compactTrigger: event.compactTrigger,
               contextTotalTokens: event.contextTotalTokens,
-              contextPercent: event.contextPercent,
             }),
           }).catch(() => {});
+          break;
         }
-        break;
-      }
-      case "compaction": {
-        // Always record compaction events (no throttle)
-        fetch(`${opts.apiUrl}/api/tasks/${realTaskId}/context`, {
-          method: "POST",
-          headers: {
-            "Content-Type": "application/json",
-            "X-Agent-ID": opts.agentId,
-            Authorization: `Bearer ${opts.apiKey}`,
-          },
-          body: JSON.stringify({
-            eventType: "compaction",
-            sessionId: opts.runnerSessionId,
-            preCompactTokens: event.preCompactTokens,
-            compactTrigger: event.compactTrigger,
-            contextTotalTokens: event.contextTotalTokens,
-          }),
-        }).catch(() => {});
-        break;
-      }
-      case "raw_log":
-        prettyPrintLine(event.content, opts.role);
-        if (shouldStream) {
-          logBuffer.lines.push(event.content);
-          const shouldFlush =
-            logBuffer.lines.length >= LOG_BUFFER_SIZE ||
-            Date.now() - logBuffer.lastFlush >= LOG_FLUSH_INTERVAL_MS;
-          if (shouldFlush) {
-            flushLogBuffer(logBuffer, {
-              apiUrl: opts.apiUrl,
-              apiKey: opts.apiKey,
-              agentId: opts.agentId,
-              sessionId: opts.runnerSessionId,
-              iteration: opts.iteration,
-              taskId: effectiveTaskId,
-              cli: adapter.name,
-            }).catch(() => {});
+        case "raw_log":
+          prettyPrintLine(event.content, opts.role);
+          if (shouldStream) {
+            logBuffer.lines.push(event.content);
+            const shouldFlush =
+              logBuffer.lines.length >= LOG_BUFFER_SIZE ||
+              Date.now() - logBuffer.lastFlush >= LOG_FLUSH_INTERVAL_MS;
+            if (shouldFlush) {
+              flushLogBuffer(logBuffer, {
+                apiUrl: opts.apiUrl,
+                apiKey: opts.apiKey,
+                agentId: opts.agentId,
+                sessionId: opts.runnerSessionId,
+                iteration: opts.iteration,
+                taskId: effectiveTaskId,
+                cli: adapter.name,
+              }).catch(() => {});
+            }
           }
-        }
-        break;
-      case "raw_stderr":
-        prettyPrintStderr(event.content, opts.role);
-        break;
-      case "progress": {
-        if (effectiveTaskId && opts.apiUrl) {
-          const now = Date.now();
-          if (now - lastProgressTime >= PROGRESS_THROTTLE_MS) {
-            lastProgressTime = now;
-            updateProgressViaAPI(opts.apiUrl, opts.apiKey, effectiveTaskId, event.message).catch(
-              () => {},
-            );
+          break;
+        case "raw_stderr":
+          prettyPrintStderr(event.content, opts.role);
+          break;
+        case "progress": {
+          if (effectiveTaskId && opts.apiUrl) {
+            const now = Date.now();
+            if (now - lastProgressTime >= PROGRESS_THROTTLE_MS) {
+              lastProgressTime = now;
+              updateProgressViaAPI(opts.apiUrl, opts.apiKey, effectiveTaskId, event.message).catch(
+                () => {},
+              );
+            }
           }
+          break;
         }
-        break;
       }
-    }
-  });
+    }),
+  );
-  // Create promise that handles completion
-  const promise: Promise<ProviderResult> = session.waitForCompletion().then(async (result) => {
-    // Stop event flush timer and do a final flush
-    clearInterval(eventFlushTimer);
-    await flushEvents();
-    // Final log flush
-    if (shouldStream && logBuffer.lines.length > 0) {
-      await flushLogBuffer(logBuffer, {
-        apiUrl: opts.apiUrl,
-        apiKey: opts.apiKey,
-        agentId: opts.agentId,
-        sessionId: opts.runnerSessionId,
-        iteration: opts.iteration,
-        taskId: effectiveTaskId,
-        cli: adapter.name,
+  function closeActiveToolSpans(status: "ok" | "error", message?: string) {
+    for (const [toolCallId, active] of activeToolSpans) {
+      active.span.setAttributes({
+        "agentswarm.tool.duration_ms": Date.now() - active.startedAt,
+        "agentswarm.tool.unclosed": true,
+        "agentswarm.tool.call_id": toolCallId,
       });
+      if (status === "error") {
+        active.span.setStatus({ code: 2, message: message || "session ended before tool_end" });
+      }
+      active.span.end();
+      activeToolSpans.delete(toolCallId);
     }
+  }
-    // Error logging for non-zero exit
-    if (result.exitCode !== 0) {
-      const errorLog = {
-        timestamp: new Date().toISOString(),
-        iteration: opts.iteration,
-        exitCode: result.exitCode,
-        taskId: effectiveTaskId,
-        error: true,
-      };
+  // Create promise that handles completion
+  const promise: Promise<ProviderResult> = session
+    .waitForCompletion()
+    .then((result) =>
+      withSpanContext(sessionSpan, async () => {
+        // Stop event flush timer and do a final flush
+        clearInterval(eventFlushTimer);
+        await flushEvents();
+        // Final log flush
+        if (shouldStream && logBuffer.lines.length > 0) {
+          await flushLogBuffer(logBuffer, {
+            apiUrl: opts.apiUrl,
+            apiKey: opts.apiKey,
+            agentId: opts.agentId,
+            sessionId: opts.runnerSessionId,
+            iteration: opts.iteration,
+            taskId: effectiveTaskId,
+            cli: adapter.name,
+          });
+        }
+        // Error logging for non-zero exit
+        if (result.exitCode !== 0) {
+          const errorLog = {
+            timestamp: new Date().toISOString(),
+            iteration: opts.iteration,
+            exitCode: result.exitCode,
+            taskId: effectiveTaskId,
+            error: true,
+          };
-      const errorsFile = `${logDir}/errors.jsonl`;
-      const errorsFileRef = Bun.file(errorsFile);
-      const existingErrors = (await errorsFileRef.exists()) ? await errorsFileRef.text() : "";
-      await Bun.write(errorsFile, `${existingErrors}${JSON.stringify(errorLog)}\n`);
+          const errorsFile = `${logDir}/errors.jsonl`;
+          const errorsFileRef = Bun.file(errorsFile);
+          const existingErrors = (await errorsFileRef.exists()) ? await errorsFileRef.text() : "";
+          await Bun.write(errorsFile, `${existingErrors}${JSON.stringify(errorLog)}\n`);
-      if (!isYolo) {
-        console.error(
-          `[${opts.role}] Task ${effectiveTaskId.slice(0, 8)} exited with code ${result.exitCode}.`,
-        );
-      } else {
-        console.warn(
-          `[${opts.role}] Task ${effectiveTaskId.slice(0, 8)} exited with code ${result.exitCode}. YOLO mode - continuing...`,
-        );
-      }
-    }
+          if (!isYolo) {
+            console.error(
+              `[${opts.role}] Task ${effectiveTaskId.slice(0, 8)} exited with code ${result.exitCode}.`,
+            );
+          } else {
+            console.warn(
+              `[${opts.role}] Task ${effectiveTaskId.slice(0, 8)} exited with code ${result.exitCode}. YOLO mode - continuing...`,
+            );
+          }
+        }
-    // Save cost data (awaited to ensure it completes before container exits)
-    if (result.cost) {
-      try {
-        await saveCostData(
-          { ...result.cost, taskId: realTaskId, sessionId: opts.runnerSessionId },
-          opts.apiUrl,
-          opts.apiKey,
-        );
-      } catch (err) {
-        console.warn(`[runner] Failed to save cost: ${err}`);
-      }
-    }
+        // Save cost data (awaited to ensure it completes before container exits)
+        if (result.cost) {
+          sessionSpan.setAttributes({
+            "gen_ai.response.model": result.cost.model,
+            "gen_ai.usage.input_tokens": result.cost.inputTokens ?? 0,
+            "gen_ai.usage.output_tokens": result.cost.outputTokens ?? 0,
+            "agentswarm.cost.total_usd": result.cost.totalCostUsd ?? 0,
+          });
+          try {
+            await saveCostData(
+              { ...result.cost, taskId: realTaskId, sessionId: opts.runnerSessionId },
+              opts.apiUrl,
+              opts.apiKey,
+            );
+          } catch (err) {
+            console.warn(`[runner] Failed to save cost: ${err}`);
+          }
+        }
-    // Post completion context usage snapshot
-    if (result.cost && realTaskId) {
-      fetch(`${opts.apiUrl}/api/tasks/${realTaskId}/context`, {
-        method: "POST",
-        headers: {
-          "Content-Type": "application/json",
-          "X-Agent-ID": opts.agentId,
-          Authorization: `Bearer ${opts.apiKey}`,
-        },
-        body: JSON.stringify({
-          eventType: "completion",
-          sessionId: opts.runnerSessionId,
-          cumulativeInputTokens: result.cost.inputTokens ?? 0,
-          cumulativeOutputTokens: result.cost.outputTokens ?? 0,
-          contextTotalTokens: getContextWindowSize(result.cost.model || "default"),
-        }),
-      }).catch(() => {});
-    }
+        // Post completion context usage snapshot
+        if (result.cost && realTaskId) {
+          fetch(`${opts.apiUrl}/api/tasks/${realTaskId}/context`, {
+            method: "POST",
+            headers: {
+              "Content-Type": "application/json",
+              "X-Agent-ID": opts.agentId,
+              Authorization: `Bearer ${opts.apiKey}`,
+            },
+            body: JSON.stringify({
+              eventType: "completion",
+              sessionId: opts.runnerSessionId,
+              cumulativeInputTokens: result.cost.inputTokens ?? 0,
+              cumulativeOutputTokens: result.cost.outputTokens ?? 0,
+              contextTotalTokens: getContextWindowSize(result.cost.model || "default"),
+            }),
+          }).catch(() => {});
+        }
-    return result;
-  });
+        sessionSpan.setAttributes({
+          "agentswarm.session.duration_ms": Date.now() - sessionStartTime,
+          "agentswarm.session.exit_code": result.exitCode,
+          "agentswarm.session.outcome": result.exitCode === 0 ? "ok" : "error",
+        });
+        if (result.exitCode !== 0) {
+          sessionSpan.setStatus({
+            code: 2,
+            message: result.failureReason || `Provider exited with ${result.exitCode}`,
+          });
+        }
+        closeActiveToolSpans(result.exitCode === 0 ? "ok" : "error", result.failureReason);
+        sessionSpan.end();
+        return result;
+      }),
+    )
+    .catch((error) =>
+      withSpanContext(sessionSpan, () => {
+        clearInterval(eventFlushTimer);
+        sessionSpan.recordException(error);
+        sessionSpan.setStatus({
+          code: 2,
+          message: error instanceof Error ? error.message : String(error),
+        });
+        closeActiveToolSpans("error", error instanceof Error ? error.message : String(error));
+        sessionSpan.end();
+        throw error;
+      }),
+    );
   // Build credential info for rate limit tracking
   const primarySelection = credentialSelections[0] ?? oauthSelection;
@@ -2402,6 +2756,7 @@ export async function runAgent(config: RunnerConfig, opts: RunnerOptions) {
   // Initialize Business-Use SDK for worker-side instrumentation
   initialize();
+  await initOtel(role);
   const sessionId = process.env.SESSION_ID || crypto.randomUUID().slice(0, 8);
   const baseLogDir = opts.logsDir || process.env.LOG_DIR || "/logs";