npm - elasticdash-sdk - Versions diffs - 0.2.0 - Mend

elasticdash-sdk 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (349) hide show

package/LICENSE +21 -0
package/README.md +775 -0
package/dist/browser-ui.d.ts +43 -0
package/dist/browser-ui.d.ts.map +1 -0
package/dist/browser-ui.js +246 -0
package/dist/browser-ui.js.map +1 -0
package/dist/capture/event.d.ts +33 -0
package/dist/capture/event.d.ts.map +1 -0
package/dist/capture/event.js +2 -0
package/dist/capture/event.js.map +1 -0
package/dist/capture/index.d.ts +4 -0
package/dist/capture/index.d.ts.map +1 -0
package/dist/capture/index.js +4 -0
package/dist/capture/index.js.map +1 -0
package/dist/capture/recorder.d.ts +24 -0
package/dist/capture/recorder.d.ts.map +1 -0
package/dist/capture/recorder.js +46 -0
package/dist/capture/recorder.js.map +1 -0
package/dist/capture/replay.d.ts +20 -0
package/dist/capture/replay.d.ts.map +1 -0
package/dist/capture/replay.js +47 -0
package/dist/capture/replay.js.map +1 -0
package/dist/ci/api-client.d.ts +38 -0
package/dist/ci/api-client.d.ts.map +1 -0
package/dist/ci/api-client.js +96 -0
package/dist/ci/api-client.js.map +1 -0
package/dist/ci/benchmark.d.ts +33 -0
package/dist/ci/benchmark.d.ts.map +1 -0
package/dist/ci/benchmark.js +213 -0
package/dist/ci/benchmark.js.map +1 -0
package/dist/ci/ed-runner.d.ts +48 -0
package/dist/ci/ed-runner.d.ts.map +1 -0
package/dist/ci/ed-runner.js +260 -0
package/dist/ci/ed-runner.js.map +1 -0
package/dist/ci/executor.d.ts +13 -0
package/dist/ci/executor.d.ts.map +1 -0
package/dist/ci/executor.js +542 -0
package/dist/ci/executor.js.map +1 -0
package/dist/ci/git-info.d.ts +17 -0
package/dist/ci/git-info.d.ts.map +1 -0
package/dist/ci/git-info.js +102 -0
package/dist/ci/git-info.js.map +1 -0
package/dist/ci/index.d.ts +6 -0
package/dist/ci/index.d.ts.map +1 -0
package/dist/ci/index.js +4 -0
package/dist/ci/index.js.map +1 -0
package/dist/ci/measurement.d.ts +9 -0
package/dist/ci/measurement.d.ts.map +1 -0
package/dist/ci/measurement.js +15 -0
package/dist/ci/measurement.js.map +1 -0
package/dist/ci/replay.d.ts +31 -0
package/dist/ci/replay.d.ts.map +1 -0
package/dist/ci/replay.js +96 -0
package/dist/ci/replay.js.map +1 -0
package/dist/ci/reporters/default.d.ts +8 -0
package/dist/ci/reporters/default.d.ts.map +1 -0
package/dist/ci/reporters/default.js +46 -0
package/dist/ci/reporters/default.js.map +1 -0
package/dist/ci/reporters/index.d.ts +8 -0
package/dist/ci/reporters/index.d.ts.map +1 -0
package/dist/ci/reporters/index.js +14 -0
package/dist/ci/reporters/index.js.map +1 -0
package/dist/ci/reporters/json.d.ts +8 -0
package/dist/ci/reporters/json.d.ts.map +1 -0
package/dist/ci/reporters/json.js +14 -0
package/dist/ci/reporters/json.js.map +1 -0
package/dist/ci/reporters/junit.d.ts +8 -0
package/dist/ci/reporters/junit.d.ts.map +1 -0
package/dist/ci/reporters/junit.js +48 -0
package/dist/ci/reporters/junit.js.map +1 -0
package/dist/ci/runner.d.ts +3 -0
package/dist/ci/runner.d.ts.map +1 -0
package/dist/ci/runner.js +187 -0
package/dist/ci/runner.js.map +1 -0
package/dist/ci/test-discovery.d.ts +5 -0
package/dist/ci/test-discovery.d.ts.map +1 -0
package/dist/ci/test-discovery.js +11 -0
package/dist/ci/test-discovery.js.map +1 -0
package/dist/ci/test-loader.d.ts +19 -0
package/dist/ci/test-loader.d.ts.map +1 -0
package/dist/ci/test-loader.js +149 -0
package/dist/ci/test-loader.js.map +1 -0
package/dist/ci/test-registry.d.ts +42 -0
package/dist/ci/test-registry.d.ts.map +1 -0
package/dist/ci/test-registry.js +18 -0
package/dist/ci/test-registry.js.map +1 -0
package/dist/ci/trace-schema.d.ts +30 -0
package/dist/ci/trace-schema.d.ts.map +1 -0
package/dist/ci/trace-schema.js +66 -0
package/dist/ci/trace-schema.js.map +1 -0
package/dist/ci/trace-writer.d.ts +16 -0
package/dist/ci/trace-writer.d.ts.map +1 -0
package/dist/ci/trace-writer.js +108 -0
package/dist/ci/trace-writer.js.map +1 -0
package/dist/ci/types.d.ts +108 -0
package/dist/ci/types.d.ts.map +1 -0
package/dist/ci/types.js +3 -0
package/dist/ci/types.js.map +1 -0
package/dist/ci/upload-client.d.ts +74 -0
package/dist/ci/upload-client.d.ts.map +1 -0
package/dist/ci/upload-client.js +195 -0
package/dist/ci/upload-client.js.map +1 -0
package/dist/cli.d.ts +3 -0
package/dist/cli.d.ts.map +1 -0
package/dist/cli.js +716 -0
package/dist/cli.js.map +1 -0
package/dist/core/agent-state.d.ts +47 -0
package/dist/core/agent-state.d.ts.map +1 -0
package/dist/core/agent-state.js +137 -0
package/dist/core/agent-state.js.map +1 -0
package/dist/core/judge-utils.d.ts +22 -0
package/dist/core/judge-utils.d.ts.map +1 -0
package/dist/core/judge-utils.js +211 -0
package/dist/core/judge-utils.js.map +1 -0
package/dist/core/registry.d.ts +28 -0
package/dist/core/registry.d.ts.map +1 -0
package/dist/core/registry.js +52 -0
package/dist/core/registry.js.map +1 -0
package/dist/dashboard-server.d.ts +65 -0
package/dist/dashboard-server.d.ts.map +1 -0
package/dist/dashboard-server.js +3940 -0
package/dist/dashboard-server.js.map +1 -0
package/dist/execution/tool-runner.d.ts +26 -0
package/dist/execution/tool-runner.d.ts.map +1 -0
package/dist/execution/tool-runner.js +316 -0
package/dist/execution/tool-runner.js.map +1 -0
package/dist/html/dashboard.html +2218 -0
package/dist/http.d.ts +14 -0
package/dist/http.d.ts.map +1 -0
package/dist/http.js +13 -0
package/dist/http.js.map +1 -0
package/dist/index.cjs +8102 -0
package/dist/index.d.ts +61 -0
package/dist/index.d.ts.map +1 -0
package/dist/index.js +67 -0
package/dist/index.js.map +1 -0
package/dist/interceptors/ai-interceptor.d.ts +26 -0
package/dist/interceptors/ai-interceptor.d.ts.map +1 -0
package/dist/interceptors/ai-interceptor.js +756 -0
package/dist/interceptors/ai-interceptor.js.map +1 -0
package/dist/interceptors/db-auto.d.ts +8 -0
package/dist/interceptors/db-auto.d.ts.map +1 -0
package/dist/interceptors/db-auto.js +217 -0
package/dist/interceptors/db-auto.js.map +1 -0
package/dist/interceptors/db.d.ts +23 -0
package/dist/interceptors/db.d.ts.map +1 -0
package/dist/interceptors/db.js +137 -0
package/dist/interceptors/db.js.map +1 -0
package/dist/interceptors/http.d.ts +28 -0
package/dist/interceptors/http.d.ts.map +1 -0
package/dist/interceptors/http.js +356 -0
package/dist/interceptors/http.js.map +1 -0
package/dist/interceptors/side-effects.d.ts +7 -0
package/dist/interceptors/side-effects.d.ts.map +1 -0
package/dist/interceptors/side-effects.js +72 -0
package/dist/interceptors/side-effects.js.map +1 -0
package/dist/interceptors/telemetry-push.d.ts +142 -0
package/dist/interceptors/telemetry-push.d.ts.map +1 -0
package/dist/interceptors/telemetry-push.js +463 -0
package/dist/interceptors/telemetry-push.js.map +1 -0
package/dist/interceptors/tool.d.ts +2 -0
package/dist/interceptors/tool.d.ts.map +1 -0
package/dist/interceptors/tool.js +274 -0
package/dist/interceptors/tool.js.map +1 -0
package/dist/interceptors/workflow-ai.d.ts +5 -0
package/dist/interceptors/workflow-ai.d.ts.map +1 -0
package/dist/interceptors/workflow-ai.js +382 -0
package/dist/interceptors/workflow-ai.js.map +1 -0
package/dist/internals/conditional-recorder.d.ts +21 -0
package/dist/internals/conditional-recorder.d.ts.map +1 -0
package/dist/internals/conditional-recorder.js +54 -0
package/dist/internals/conditional-recorder.js.map +1 -0
package/dist/internals/mock-resolver.d.ts +146 -0
package/dist/internals/mock-resolver.d.ts.map +1 -0
package/dist/internals/mock-resolver.js +427 -0
package/dist/internals/mock-resolver.js.map +1 -0
package/dist/matchers/index.d.ts +96 -0
package/dist/matchers/index.d.ts.map +1 -0
package/dist/matchers/index.js +668 -0
package/dist/matchers/index.js.map +1 -0
package/dist/observability.d.ts +82 -0
package/dist/observability.d.ts.map +1 -0
package/dist/observability.js +471 -0
package/dist/observability.js.map +1 -0
package/dist/portal-executor.d.ts +30 -0
package/dist/portal-executor.d.ts.map +1 -0
package/dist/portal-executor.js +324 -0
package/dist/portal-executor.js.map +1 -0
package/dist/portal-server.d.ts +3 -0
package/dist/portal-server.d.ts.map +1 -0
package/dist/portal-server.js +279 -0
package/dist/portal-server.js.map +1 -0
package/dist/proxy/llm-capture.d.ts +14 -0
package/dist/proxy/llm-capture.d.ts.map +1 -0
package/dist/proxy/llm-capture.js +264 -0
package/dist/proxy/llm-capture.js.map +1 -0
package/dist/reporter.d.ts +3 -0
package/dist/reporter.d.ts.map +1 -0
package/dist/reporter.js +72 -0
package/dist/reporter.js.map +1 -0
package/dist/runWorkflowSubprocess.d.ts +14 -0
package/dist/runWorkflowSubprocess.d.ts.map +1 -0
package/dist/runWorkflowSubprocess.js +66 -0
package/dist/runWorkflowSubprocess.js.map +1 -0
package/dist/runner.d.ts +16 -0
package/dist/runner.d.ts.map +1 -0
package/dist/runner.js +138 -0
package/dist/runner.js.map +1 -0
package/dist/socket-connector.d.ts +22 -0
package/dist/socket-connector.d.ts.map +1 -0
package/dist/socket-connector.js +104 -0
package/dist/socket-connector.js.map +1 -0
package/dist/telemetry-batcher.d.ts +56 -0
package/dist/telemetry-batcher.d.ts.map +1 -0
package/dist/telemetry-batcher.js +143 -0
package/dist/telemetry-batcher.js.map +1 -0
package/dist/test-setup.d.ts +12 -0
package/dist/test-setup.d.ts.map +1 -0
package/dist/test-setup.js +13 -0
package/dist/test-setup.js.map +1 -0
package/dist/tool-registry.d.ts +31 -0
package/dist/tool-registry.d.ts.map +1 -0
package/dist/tool-registry.js +73 -0
package/dist/tool-registry.js.map +1 -0
package/dist/tool-runner-worker.d.ts +2 -0
package/dist/tool-runner-worker.d.ts.map +1 -0
package/dist/tool-runner-worker.js +215 -0
package/dist/tool-runner-worker.js.map +1 -0
package/dist/trace-adapter/context.d.ts +72 -0
package/dist/trace-adapter/context.d.ts.map +1 -0
package/dist/trace-adapter/context.js +80 -0
package/dist/trace-adapter/context.js.map +1 -0
package/dist/tracing.d.ts +2 -0
package/dist/tracing.d.ts.map +1 -0
package/dist/tracing.js +59 -0
package/dist/tracing.js.map +1 -0
package/dist/trigger-executor.d.ts +12 -0
package/dist/trigger-executor.d.ts.map +1 -0
package/dist/trigger-executor.js +130 -0
package/dist/trigger-executor.js.map +1 -0
package/dist/types/portal.d.ts +76 -0
package/dist/types/portal.d.ts.map +1 -0
package/dist/types/portal.js +2 -0
package/dist/types/portal.js.map +1 -0
package/dist/utils/debug.d.ts +3 -0
package/dist/utils/debug.d.ts.map +1 -0
package/dist/utils/debug.js +8 -0
package/dist/utils/debug.js.map +1 -0
package/dist/utils/license-error.d.ts +23 -0
package/dist/utils/license-error.d.ts.map +1 -0
package/dist/utils/license-error.js +42 -0
package/dist/utils/license-error.js.map +1 -0
package/dist/utils/redact.d.ts +7 -0
package/dist/utils/redact.d.ts.map +1 -0
package/dist/utils/redact.js +26 -0
package/dist/utils/redact.js.map +1 -0
package/dist/workflow-runner-worker.d.ts +2 -0
package/dist/workflow-runner-worker.d.ts.map +1 -0
package/dist/workflow-runner-worker.js +329 -0
package/dist/workflow-runner-worker.js.map +1 -0
package/dist/workflow-runner.d.ts +14 -0
package/dist/workflow-runner.d.ts.map +1 -0
package/dist/workflow-runner.js +34 -0
package/dist/workflow-runner.js.map +1 -0
package/docs/agent-coding-instructions.md +138 -0
package/docs/agent-integration-guide.md +564 -0
package/docs/agents.md +140 -0
package/docs/dashboard.md +394 -0
package/docs/deno.md +69 -0
package/docs/instrumentation.md +424 -0
package/docs/langfuse-trace-structure.md +145 -0
package/docs/matchers.md +173 -0
package/docs/observability_contract.md +192 -0
package/docs/observability_mode.md +195 -0
package/docs/quickstart.md +621 -0
package/docs/security-compliance.md +566 -0
package/docs/test-writing-guidelines.md +444 -0
package/docs/tools.md +165 -0
package/docs/workflow-modes.md +253 -0
package/package.json +76 -0
package/src/browser-ui.ts +281 -0
package/src/capture/event.ts +30 -0
package/src/capture/index.ts +3 -0
package/src/capture/recorder.ts +62 -0
package/src/capture/replay.ts +55 -0
package/src/ci/api-client.ts +136 -0
package/src/ci/benchmark.ts +257 -0
package/src/ci/ed-runner.ts +351 -0
package/src/ci/executor.ts +671 -0
package/src/ci/git-info.ts +127 -0
package/src/ci/index.ts +5 -0
package/src/ci/measurement.ts +25 -0
package/src/ci/replay.ts +127 -0
package/src/ci/reporters/default.ts +50 -0
package/src/ci/reporters/index.ts +21 -0
package/src/ci/reporters/json.ts +18 -0
package/src/ci/reporters/junit.ts +61 -0
package/src/ci/runner.ts +208 -0
package/src/ci/test-discovery.ts +16 -0
package/src/ci/test-loader.ts +187 -0
package/src/ci/test-registry.ts +62 -0
package/src/ci/trace-schema.ts +96 -0
package/src/ci/trace-writer.ts +107 -0
package/src/ci/types.ts +115 -0
package/src/ci/upload-client.ts +300 -0
package/src/cli.ts +811 -0
package/src/core/agent-state.ts +162 -0
package/src/core/judge-utils.ts +232 -0
package/src/core/registry.ts +92 -0
package/src/dashboard-server.ts +2047 -0
package/src/execution/tool-runner.ts +352 -0
package/src/html/dashboard.html +2218 -0
package/src/http.ts +13 -0
package/src/index.ts +138 -0
package/src/interceptors/ai-interceptor.ts +798 -0
package/src/interceptors/db-auto.ts +243 -0
package/src/interceptors/db.ts +156 -0
package/src/interceptors/http.ts +393 -0
package/src/interceptors/side-effects.ts +83 -0
package/src/interceptors/telemetry-push.ts +537 -0
package/src/interceptors/tool.ts +287 -0
package/src/interceptors/workflow-ai.ts +419 -0
package/src/internals/conditional-recorder.ts +63 -0
package/src/internals/mock-resolver.ts +492 -0
package/src/matchers/index.ts +824 -0
package/src/observability.ts +501 -0
package/src/portal-executor.ts +355 -0
package/src/portal-server.ts +304 -0
package/src/proxy/llm-capture.ts +301 -0
package/src/reporter.ts +81 -0
package/src/runWorkflowSubprocess.ts +74 -0
package/src/runner.ts +178 -0
package/src/socket-connector.ts +117 -0
package/src/telemetry-batcher.ts +191 -0
package/src/test-setup.ts +16 -0
package/src/tool-registry.ts +94 -0
package/src/tool-runner-worker.ts +244 -0
package/src/trace-adapter/context.ts +156 -0
package/src/tracing.ts +62 -0
package/src/trigger-executor.ts +171 -0
package/src/types/agent.d.ts +63 -0
package/src/types/expect.d.ts +81 -0
package/src/types/modules.d.ts +2 -0
package/src/types/portal.ts +69 -0
package/src/utils/debug.ts +8 -0
package/src/utils/license-error.ts +43 -0
package/src/utils/redact.ts +25 -0
package/src/workflow-runner-worker.ts +386 -0
package/src/workflow-runner.ts +58 -0

package/src/capture/recorder.ts ADDED Viewed

@@ -0,0 +1,62 @@
+import { AsyncLocalStorage } from 'node:async_hooks'
+import { randomUUID } from 'node:crypto'
+import type { WorkflowEvent, WorkflowTrace } from './event.js'
+import type { ReplayController } from './replay.js'
+export class TraceRecorder {
+  events: WorkflowEvent[] = []
+  private _counter = 0
+  private _sideEffectCounter = 0
+  private _pending: Set<Promise<void>> = new Set()
+  record(event: WorkflowEvent): void {
+    this.events.push(event)
+  }
+  /** Register an in-flight async recording promise so flush() can await it. */
+  trackAsync(promise: Promise<void>): void {
+    this._pending.add(promise)
+    promise.finally(() => { this._pending.delete(promise) })
+  }
+  /** Await all in-flight async recordings. No-op when none are pending. */
+  async flush(): Promise<void> {
+    await Promise.allSettled([...this._pending])
+  }
+  nextId(): number {
+    return ++this._counter
+  }
+  /** Separate counter for Date.now / Math.random — never shares IDs with main events. */
+  nextSideEffectId(): number {
+    return ++this._sideEffectCounter
+  }
+  toTrace(traceId?: string): WorkflowTrace {
+    return {
+      traceId: traceId ?? randomUUID(),
+      events: [...this.events],
+    }
+  }
+}
+export interface CaptureContext {
+  recorder: TraceRecorder
+  replay: ReplayController
+}
+const g = globalThis as Record<string, unknown>
+const CAPTURE_ALS_KEY = '__elasticdash_capture_als__'
+const captureAls: AsyncLocalStorage<CaptureContext | undefined> =
+  (g[CAPTURE_ALS_KEY] as AsyncLocalStorage<CaptureContext | undefined>) ??
+  new AsyncLocalStorage<CaptureContext | undefined>()
+if (!g[CAPTURE_ALS_KEY]) g[CAPTURE_ALS_KEY] = captureAls
+export function setCaptureContext(ctx: CaptureContext | undefined): void {
+  captureAls.enterWith(ctx)
+}
+export function getCaptureContext(): CaptureContext | undefined {
+  return captureAls.getStore()
+}

package/src/capture/replay.ts ADDED Viewed

@@ -0,0 +1,55 @@
+import type { WorkflowEvent } from './event.js'
+export class ReplayController {
+  private historyMap: Map<number, WorkflowEvent>
+  /** Side effects keyed by their assigned sideEffectId, independent of main event IDs */
+  private sideEffectMap: Map<number, WorkflowEvent>
+  constructor(
+    public replayMode: boolean,
+    public checkpoint: number,
+    public history: WorkflowEvent[],
+  ) {
+    this.historyMap = new Map(history.map(e => [e.id, e]))
+    this.sideEffectMap = new Map(
+      history.filter(e => e.type === 'side_effect').map(e => [e.id, e]),
+    )
+  }
+  shouldReplay(eventId: number): boolean {
+    return this.replayMode && eventId <= this.checkpoint
+  }
+  getRecordedEvent(eventId: number): WorkflowEvent | undefined {
+    return this.historyMap.get(eventId)
+  }
+  getRecordedResult(eventId: number): unknown {
+    return this.historyMap.get(eventId)?.output
+  }
+  /** Returns true if the side effect with this sideEffectId has a recorded value to replay */
+  shouldReplaySideEffect(n: number): boolean {
+    return this.replayMode && this.sideEffectMap.has(n)
+  }
+  getSideEffectResult(n: number): unknown {
+    return this.sideEffectMap.get(n)?.output
+  }
+  getRecordedSideEffectEvent(n: number): WorkflowEvent | undefined {
+    return this.sideEffectMap.get(n)
+  }
+  shouldReplaySideEffectOfType(n: number, expectedName: string): boolean {
+    if (!this.replayMode) return false
+    const event = this.sideEffectMap.get(n)
+    return !!event && event.type === 'side_effect' && event.name === expectedName
+  }
+  getSideEffectResultOfType(n: number, expectedName: string): unknown {
+    const event = this.sideEffectMap.get(n)
+    if (!event || event.type !== 'side_effect' || event.name !== expectedName) return undefined
+    return event.output
+  }
+}

package/src/ci/api-client.ts ADDED Viewed

@@ -0,0 +1,136 @@
+import { randomUUID } from 'node:crypto'
+import { getOriginalFetch } from '../interceptors/http.js'
+import type { APITestGroup } from './types.js'
+// ─── API Client ──────────────────────────────────────────────
+// Uses getOriginalFetch() to bypass SDK interceptors.
+/** Normalize serverUrl: strip trailing slash and trailing /api to avoid double /api/api paths */
+function normalizeBase(serverUrl: string): string {
+  return serverUrl.replace(/\/+$/, '').replace(/\/api$/, '')
+}
+function headers(apiKey: string): Record<string, string> {
+  return {
+    'Content-Type': 'application/json',
+    'api-key': apiKey || '',
+    'X-Correlation-ID': randomUUID(),
+  }
+}
+async function apiRequest<T>(
+  url: string,
+  apiKey: string,
+  options: RequestInit = {},
+): Promise<T> {
+  const method = (options.method || 'GET').toUpperCase()
+  console.log(`[elasticdash ci] ${method} ${url}`)
+  const res = await getOriginalFetch()(url, {
+    ...options,
+    headers: { ...headers(apiKey), ...(options.headers as Record<string, string> ?? {}) },
+  })
+  if (!res.ok) {
+    const text = await res.text().catch(() => '')
+    console.log(`[elasticdash ci] ${method} ${url} → ${res.status} ${text.substring(0, 200)}`)
+    throw new Error(`API ${res.status}: ${text || res.statusText}`)
+  }
+  const json = await res.json() as Record<string, unknown>
+  // Backend wraps responses in generalApiResponseSender which sends { result: ... }
+  // Use 'in' check instead of nullish coalescing — result:null is valid data, not "missing"
+  const result = 'result' in json ? json.result : ('data' in json ? json.data : json)
+  console.log(`[elasticdash ci] ${method} ${url} → ${res.status} (result keys: ${result && typeof result === 'object' ? Object.keys(result).join(',') : typeof result})`)
+  return result as T
+}
+/**
+ * Fetch all active test groups (with nested tests & expectations) for the project
+ * scoped to the API key.
+ */
+export async function fetchTestGroups(
+  serverUrl: string,
+  apiKey: string,
+  filters?: { workflowName?: string; tags?: string[]; status?: string },
+): Promise<APITestGroup[]> {
+  const base = normalizeBase(serverUrl)
+  const params = new URLSearchParams()
+  if (filters?.workflowName) params.set('workflowName', filters.workflowName)
+  if (filters?.tags?.length) params.set('tags', filters.tags.join(','))
+  if (filters?.status) params.set('status', filters.status)
+  const qs = params.toString()
+  const url = `${base}/api/testgroups/by-project${qs ? `?${qs}` : ''}`
+  return apiRequest<APITestGroup[]>(url, apiKey)
+}
+/**
+ * Submit a test run result to the backend.
+ */
+export async function submitTestRun(
+  serverUrl: string,
+  apiKey: string,
+  testGroupId: number,
+  payload: Record<string, unknown>,
+): Promise<{ id: number }> {
+  const base = normalizeBase(serverUrl)
+  const url = `${base}/api/testgroups/${testGroupId}/runs`
+  return apiRequest<{ id: number }>(url, apiKey, {
+    method: 'POST',
+    body: JSON.stringify(payload),
+  })
+}
+/**
+ * Create a batch grouping multiple test run IDs.
+ */
+export async function createBatch(
+  serverUrl: string,
+  apiKey: string,
+  payload: Record<string, unknown>,
+): Promise<{ id: number }> {
+  const base = normalizeBase(serverUrl)
+  const url = `${base}/api/testgroups/batches`
+  return apiRequest<{ id: number }>(url, apiKey, {
+    method: 'POST',
+    body: JSON.stringify(payload),
+  })
+}
+/**
+ * Resolved evaluator configuration from the backend.
+ * Provider/model/apiKey may be null if the user has not configured an evaluator.
+ */
+export interface EvaluatorConfig {
+  provider: string | null
+  model: string | null
+  apiKey: string | null
+}
+/** Maps backend llmProviderId to provider name. */
+const LLM_PROVIDER_MAP: Record<number, string> = {
+  1: 'openai',
+  2: 'gemini',
+  3: 'anthropic',
+  4: 'moonshot',
+}
+/**
+ * Fetch the user's default evaluator config.
+ * Used by ed-test llm_judge benchmarks when judge_provider/judge_model
+ * are not specified in the test definition.
+ */
+export async function fetchEvaluatorConfig(
+  serverUrl: string,
+  apiKey: string,
+): Promise<EvaluatorConfig> {
+  const base = normalizeBase(serverUrl)
+  const url = `${base}/api/user/settings/llm/default-evaluator`
+  const raw = await apiRequest<{ llmProviderId?: number; model?: string }>(url, apiKey)
+  return {
+    provider: raw?.llmProviderId ? (LLM_PROVIDER_MAP[raw.llmProviderId] ?? null) : null,
+    model: raw?.model ?? null,
+    apiKey: null,
+  }
+}

package/src/ci/benchmark.ts ADDED Viewed

@@ -0,0 +1,257 @@
+/**
+ * benchmark.ts
+ *
+ * Compares recorded trace measurements against user-defined benchmarks.
+ * Supports duration, token, output-contains, and LLM-as-a-judge evaluations.
+ *
+ * Generated/updated on 2026-04-20.
+ */
+import { callProviderLLM } from '../matchers/index.js'
+import { prepareOutputForJudge } from '../core/judge-utils.js'
+import type { TestMeasurement } from './measurement.js'
+import type { TestBenchmarks } from './test-registry.js'
+import type { EvaluatorConfig } from './api-client.js'
+export type MetricName = 'duration_ms' | 'tokens_total' | 'output_contains' | 'output_not_contains' | 'llm_judge'
+export interface MetricResult {
+  name: MetricName
+  value: number
+  threshold: number
+  passed: boolean
+  detail?: string
+}
+export interface BenchmarkResult {
+  passed: boolean
+  failure_reason?: string
+  metrics: MetricResult[]
+}
+/** Maps backend provider names to SDK provider names used by callProviderLLM. */
+const PROVIDER_NAME_MAP: Record<string, string> = {
+  anthropic: 'claude',
+  moonshot: 'kimi',
+}
+/** Default model for each provider, used when no explicit model is set or
+ *  when the evaluator config model doesn't belong to the resolved provider. */
+const DEFAULT_PROVIDER_MODELS: Record<string, string> = {
+  openai: 'gpt-4o',
+  claude: 'claude-sonnet-4-20250514',
+  gemini: 'gemini-2.0-flash',
+  grok: 'grok-3',
+  kimi: 'moonshot-v1-auto',
+}
+/** Known model prefixes per provider — used to check if a model belongs to a provider. */
+const PROVIDER_MODEL_PREFIXES: Record<string, string[]> = {
+  openai: ['gpt-', 'o1-', 'o3-', 'o4-', 'chatgpt-', 'omni-'],
+  claude: ['claude-'],
+  gemini: ['gemini-'],
+  grok: ['grok-'],
+  kimi: ['moonshot-', 'kimi-'],
+}
+/** Check if a model name belongs to the given provider. */
+function isModelForProvider(model: string, provider: string): boolean {
+  const prefixes = PROVIDER_MODEL_PREFIXES[provider]
+  if (!prefixes) return false
+  return prefixes.some(p => model.toLowerCase().startsWith(p))
+}
+/** Normalize provider name from backend format to SDK format. */
+function normalizeSdkProvider(provider: string): string {
+  return PROVIDER_NAME_MAP[provider] ?? provider
+}
+/**
+ * Compare a measurement against benchmarks. Async because llm_judge requires
+ * an LLM call. The step's output is needed for output_contains/llm_judge checks.
+ *
+ * @param evaluatorConfig - Optional backend evaluator config used as fallback
+ *   when the test does not specify judge_provider/judge_model.
+ */
+export async function compareBenchmarks(
+  measurement: TestMeasurement,
+  benchmarks: TestBenchmarks,
+  stepOutput?: unknown,
+  evaluatorConfig?: EvaluatorConfig | null,
+): Promise<BenchmarkResult> {
+  const metrics: MetricResult[] = []
+  let firstFailure: string | undefined
+  if (benchmarks.max_duration_ms !== undefined) {
+    const passed = measurement.duration_ms <= benchmarks.max_duration_ms
+    metrics.push({
+      name: 'duration_ms',
+      value: measurement.duration_ms,
+      threshold: benchmarks.max_duration_ms,
+      passed,
+    })
+    if (!passed && !firstFailure) {
+      firstFailure = `duration_ms (${measurement.duration_ms}) exceeded max threshold (${benchmarks.max_duration_ms})`
+    }
+  }
+  if (benchmarks.max_tokens_total !== undefined) {
+    const value = measurement.tokens_total ?? 0
+    const passed = value <= benchmarks.max_tokens_total
+    metrics.push({
+      name: 'tokens_total',
+      value,
+      threshold: benchmarks.max_tokens_total,
+      passed,
+    })
+    if (!passed && !firstFailure) {
+      firstFailure = `tokens_total (${value}) exceeded max threshold (${benchmarks.max_tokens_total})`
+    }
+  }
+  // ─── Output contains ────────────────────────────────────────
+  if (benchmarks.output_contains !== undefined) {
+    const outputStr = stringifyOutput(stepOutput)
+    const passed = outputStr.toLowerCase().includes(benchmarks.output_contains.toLowerCase())
+    metrics.push({
+      name: 'output_contains',
+      value: passed ? 1 : 0,
+      threshold: 1,
+      passed,
+      detail: passed ? undefined : `output does not contain "${benchmarks.output_contains}"`,
+    })
+    if (!passed && !firstFailure) {
+      firstFailure = `output does not contain "${benchmarks.output_contains}"`
+    }
+  }
+  // ─── Output not contains ────────────────────────────────────
+  if (benchmarks.output_not_contains !== undefined) {
+    const outputStr = stringifyOutput(stepOutput)
+    const passed = !outputStr.toLowerCase().includes(benchmarks.output_not_contains.toLowerCase())
+    metrics.push({
+      name: 'output_not_contains',
+      value: passed ? 1 : 0,
+      threshold: 1,
+      passed,
+      detail: passed ? undefined : `output unexpectedly contains "${benchmarks.output_not_contains}"`,
+    })
+    if (!passed && !firstFailure) {
+      firstFailure = `output unexpectedly contains "${benchmarks.output_not_contains}"`
+    }
+  }
+  // ─── LLM-as-a-judge ────────────────────────────────────────
+  if (benchmarks.llm_judge) {
+    const judge = benchmarks.llm_judge
+    const outputStr = stringifyOutput(stepOutput)
+    const threshold = judge.judge_score_threshold ?? 7
+    // Resolve provider/model: test definition takes priority, then backend
+    // evaluator config, then fall back to 'openai' default.
+    const resolvedProvider = normalizeSdkProvider(
+      judge.judge_provider ?? evaluatorConfig?.provider ?? 'openai'
+    )
+    // Model resolution: judge_model > evaluatorConfig.model (if compatible) > provider default
+    let resolvedModel = judge.judge_model ?? undefined
+    if (!resolvedModel && evaluatorConfig?.model) {
+      // Only use the evaluator config model if it belongs to the resolved provider
+      if (isModelForProvider(evaluatorConfig.model, resolvedProvider)) {
+        resolvedModel = evaluatorConfig.model
+      }
+    }
+    if (!resolvedModel) {
+      resolvedModel = DEFAULT_PROVIDER_MODELS[resolvedProvider]
+    }
+    // If the backend provided an API key and we're using its provider,
+    // set it in the environment so callProviderLLM can pick it up.
+    const envKeyMap: Record<string, string> = {
+      openai: 'OPENAI_API_KEY',
+      claude: 'ANTHROPIC_API_KEY',
+      gemini: 'GEMINI_API_KEY',
+      grok: 'GROK_API_KEY',
+      kimi: 'KIMI_API_KEY',
+    }
+    const envKey = envKeyMap[resolvedProvider]
+    let restoreEnv: (() => void) | undefined
+    if (evaluatorConfig?.apiKey && envKey && !judge.judge_provider && !process.env[envKey]) {
+      const prev = process.env[envKey]
+      process.env[envKey] = evaluatorConfig.apiKey
+      restoreEnv = () => {
+        if (prev === undefined) delete process.env[envKey]
+        else process.env[envKey] = prev
+      }
+    }
+    try {
+      console.log(`  [llm_judge] provider=${resolvedProvider}, model=${resolvedModel ?? '(default)'}`)
+      const preparedOutput = prepareOutputForJudge(outputStr, judge.judge_prompt)
+      const evalPrompt = `${judge.judge_prompt}\n\n<output>\n${preparedOutput}\n</output>\n\nBased on the evaluation criteria above, score this output on a scale of 0-10. Respond with only the number.`
+      const result = await callProviderLLM(
+        evalPrompt,
+        { provider: resolvedProvider as 'openai' | 'claude' | 'gemini' | 'grok' | 'kimi', model: resolvedModel },
+        'You are an expert test judge. Return only a number between 0 and 10.',
+        4096,
+        0,
+      )
+      restoreEnv?.()
+      console.log(`  [llm_judge] raw response: "${result.content}"`)
+      const score = parseFloat(result.content.match(/-?\d+(?:\.\d+)?/)?.[0] ?? '')
+      if (isNaN(score)) {
+        metrics.push({
+          name: 'llm_judge',
+          value: 0,
+          threshold,
+          passed: false,
+          detail: `Could not parse score from LLM response: "${result.content}"`,
+        })
+        if (!firstFailure) {
+          firstFailure = `llm_judge: could not parse score from response`
+        }
+      } else {
+        const passed = score >= threshold
+        metrics.push({
+          name: 'llm_judge',
+          value: score,
+          threshold,
+          passed,
+          detail: `Score: ${score}/${threshold}`,
+        })
+        if (!passed && !firstFailure) {
+          firstFailure = `llm_judge score (${score}) below threshold (${threshold})`
+        }
+      }
+    } catch (err) {
+      restoreEnv?.()
+      const errMsg = err instanceof Error ? err.message : String(err)
+      metrics.push({
+        name: 'llm_judge',
+        value: 0,
+        threshold,
+        passed: false,
+        detail: `LLM judge error: ${errMsg}`,
+      })
+      if (!firstFailure) {
+        firstFailure = `llm_judge error: ${errMsg}`
+      }
+    }
+  }
+  const allPassed = metrics.every(m => m.passed)
+  return {
+    passed: allPassed,
+    failure_reason: firstFailure,
+    metrics,
+  }
+}
+/** Converts step output to a string for text-based assertions. */
+function stringifyOutput(output: unknown): string {
+  if (output === null || output === undefined) return ''
+  if (typeof output === 'string') return output
+  return JSON.stringify(output)
+}