npm - elasticdash-sdk - Versions diffs - 0.2.0 - Mend

elasticdash-sdk 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (349) hide show

package/LICENSE +21 -0
package/README.md +775 -0
package/dist/browser-ui.d.ts +43 -0
package/dist/browser-ui.d.ts.map +1 -0
package/dist/browser-ui.js +246 -0
package/dist/browser-ui.js.map +1 -0
package/dist/capture/event.d.ts +33 -0
package/dist/capture/event.d.ts.map +1 -0
package/dist/capture/event.js +2 -0
package/dist/capture/event.js.map +1 -0
package/dist/capture/index.d.ts +4 -0
package/dist/capture/index.d.ts.map +1 -0
package/dist/capture/index.js +4 -0
package/dist/capture/index.js.map +1 -0
package/dist/capture/recorder.d.ts +24 -0
package/dist/capture/recorder.d.ts.map +1 -0
package/dist/capture/recorder.js +46 -0
package/dist/capture/recorder.js.map +1 -0
package/dist/capture/replay.d.ts +20 -0
package/dist/capture/replay.d.ts.map +1 -0
package/dist/capture/replay.js +47 -0
package/dist/capture/replay.js.map +1 -0
package/dist/ci/api-client.d.ts +38 -0
package/dist/ci/api-client.d.ts.map +1 -0
package/dist/ci/api-client.js +96 -0
package/dist/ci/api-client.js.map +1 -0
package/dist/ci/benchmark.d.ts +33 -0
package/dist/ci/benchmark.d.ts.map +1 -0
package/dist/ci/benchmark.js +213 -0
package/dist/ci/benchmark.js.map +1 -0
package/dist/ci/ed-runner.d.ts +48 -0
package/dist/ci/ed-runner.d.ts.map +1 -0
package/dist/ci/ed-runner.js +260 -0
package/dist/ci/ed-runner.js.map +1 -0
package/dist/ci/executor.d.ts +13 -0
package/dist/ci/executor.d.ts.map +1 -0
package/dist/ci/executor.js +542 -0
package/dist/ci/executor.js.map +1 -0
package/dist/ci/git-info.d.ts +17 -0
package/dist/ci/git-info.d.ts.map +1 -0
package/dist/ci/git-info.js +102 -0
package/dist/ci/git-info.js.map +1 -0
package/dist/ci/index.d.ts +6 -0
package/dist/ci/index.d.ts.map +1 -0
package/dist/ci/index.js +4 -0
package/dist/ci/index.js.map +1 -0
package/dist/ci/measurement.d.ts +9 -0
package/dist/ci/measurement.d.ts.map +1 -0
package/dist/ci/measurement.js +15 -0
package/dist/ci/measurement.js.map +1 -0
package/dist/ci/replay.d.ts +31 -0
package/dist/ci/replay.d.ts.map +1 -0
package/dist/ci/replay.js +96 -0
package/dist/ci/replay.js.map +1 -0
package/dist/ci/reporters/default.d.ts +8 -0
package/dist/ci/reporters/default.d.ts.map +1 -0
package/dist/ci/reporters/default.js +46 -0
package/dist/ci/reporters/default.js.map +1 -0
package/dist/ci/reporters/index.d.ts +8 -0
package/dist/ci/reporters/index.d.ts.map +1 -0
package/dist/ci/reporters/index.js +14 -0
package/dist/ci/reporters/index.js.map +1 -0
package/dist/ci/reporters/json.d.ts +8 -0
package/dist/ci/reporters/json.d.ts.map +1 -0
package/dist/ci/reporters/json.js +14 -0
package/dist/ci/reporters/json.js.map +1 -0
package/dist/ci/reporters/junit.d.ts +8 -0
package/dist/ci/reporters/junit.d.ts.map +1 -0
package/dist/ci/reporters/junit.js +48 -0
package/dist/ci/reporters/junit.js.map +1 -0
package/dist/ci/runner.d.ts +3 -0
package/dist/ci/runner.d.ts.map +1 -0
package/dist/ci/runner.js +187 -0
package/dist/ci/runner.js.map +1 -0
package/dist/ci/test-discovery.d.ts +5 -0
package/dist/ci/test-discovery.d.ts.map +1 -0
package/dist/ci/test-discovery.js +11 -0
package/dist/ci/test-discovery.js.map +1 -0
package/dist/ci/test-loader.d.ts +19 -0
package/dist/ci/test-loader.d.ts.map +1 -0
package/dist/ci/test-loader.js +149 -0
package/dist/ci/test-loader.js.map +1 -0
package/dist/ci/test-registry.d.ts +42 -0
package/dist/ci/test-registry.d.ts.map +1 -0
package/dist/ci/test-registry.js +18 -0
package/dist/ci/test-registry.js.map +1 -0
package/dist/ci/trace-schema.d.ts +30 -0
package/dist/ci/trace-schema.d.ts.map +1 -0
package/dist/ci/trace-schema.js +66 -0
package/dist/ci/trace-schema.js.map +1 -0
package/dist/ci/trace-writer.d.ts +16 -0
package/dist/ci/trace-writer.d.ts.map +1 -0
package/dist/ci/trace-writer.js +108 -0
package/dist/ci/trace-writer.js.map +1 -0
package/dist/ci/types.d.ts +108 -0
package/dist/ci/types.d.ts.map +1 -0
package/dist/ci/types.js +3 -0
package/dist/ci/types.js.map +1 -0
package/dist/ci/upload-client.d.ts +74 -0
package/dist/ci/upload-client.d.ts.map +1 -0
package/dist/ci/upload-client.js +195 -0
package/dist/ci/upload-client.js.map +1 -0
package/dist/cli.d.ts +3 -0
package/dist/cli.d.ts.map +1 -0
package/dist/cli.js +716 -0
package/dist/cli.js.map +1 -0
package/dist/core/agent-state.d.ts +47 -0
package/dist/core/agent-state.d.ts.map +1 -0
package/dist/core/agent-state.js +137 -0
package/dist/core/agent-state.js.map +1 -0
package/dist/core/judge-utils.d.ts +22 -0
package/dist/core/judge-utils.d.ts.map +1 -0
package/dist/core/judge-utils.js +211 -0
package/dist/core/judge-utils.js.map +1 -0
package/dist/core/registry.d.ts +28 -0
package/dist/core/registry.d.ts.map +1 -0
package/dist/core/registry.js +52 -0
package/dist/core/registry.js.map +1 -0
package/dist/dashboard-server.d.ts +65 -0
package/dist/dashboard-server.d.ts.map +1 -0
package/dist/dashboard-server.js +3940 -0
package/dist/dashboard-server.js.map +1 -0
package/dist/execution/tool-runner.d.ts +26 -0
package/dist/execution/tool-runner.d.ts.map +1 -0
package/dist/execution/tool-runner.js +316 -0
package/dist/execution/tool-runner.js.map +1 -0
package/dist/html/dashboard.html +2218 -0
package/dist/http.d.ts +14 -0
package/dist/http.d.ts.map +1 -0
package/dist/http.js +13 -0
package/dist/http.js.map +1 -0
package/dist/index.cjs +8102 -0
package/dist/index.d.ts +61 -0
package/dist/index.d.ts.map +1 -0
package/dist/index.js +67 -0
package/dist/index.js.map +1 -0
package/dist/interceptors/ai-interceptor.d.ts +26 -0
package/dist/interceptors/ai-interceptor.d.ts.map +1 -0
package/dist/interceptors/ai-interceptor.js +756 -0
package/dist/interceptors/ai-interceptor.js.map +1 -0
package/dist/interceptors/db-auto.d.ts +8 -0
package/dist/interceptors/db-auto.d.ts.map +1 -0
package/dist/interceptors/db-auto.js +217 -0
package/dist/interceptors/db-auto.js.map +1 -0
package/dist/interceptors/db.d.ts +23 -0
package/dist/interceptors/db.d.ts.map +1 -0
package/dist/interceptors/db.js +137 -0
package/dist/interceptors/db.js.map +1 -0
package/dist/interceptors/http.d.ts +28 -0
package/dist/interceptors/http.d.ts.map +1 -0
package/dist/interceptors/http.js +356 -0
package/dist/interceptors/http.js.map +1 -0
package/dist/interceptors/side-effects.d.ts +7 -0
package/dist/interceptors/side-effects.d.ts.map +1 -0
package/dist/interceptors/side-effects.js +72 -0
package/dist/interceptors/side-effects.js.map +1 -0
package/dist/interceptors/telemetry-push.d.ts +142 -0
package/dist/interceptors/telemetry-push.d.ts.map +1 -0
package/dist/interceptors/telemetry-push.js +463 -0
package/dist/interceptors/telemetry-push.js.map +1 -0
package/dist/interceptors/tool.d.ts +2 -0
package/dist/interceptors/tool.d.ts.map +1 -0
package/dist/interceptors/tool.js +274 -0
package/dist/interceptors/tool.js.map +1 -0
package/dist/interceptors/workflow-ai.d.ts +5 -0
package/dist/interceptors/workflow-ai.d.ts.map +1 -0
package/dist/interceptors/workflow-ai.js +382 -0
package/dist/interceptors/workflow-ai.js.map +1 -0
package/dist/internals/conditional-recorder.d.ts +21 -0
package/dist/internals/conditional-recorder.d.ts.map +1 -0
package/dist/internals/conditional-recorder.js +54 -0
package/dist/internals/conditional-recorder.js.map +1 -0
package/dist/internals/mock-resolver.d.ts +146 -0
package/dist/internals/mock-resolver.d.ts.map +1 -0
package/dist/internals/mock-resolver.js +427 -0
package/dist/internals/mock-resolver.js.map +1 -0
package/dist/matchers/index.d.ts +96 -0
package/dist/matchers/index.d.ts.map +1 -0
package/dist/matchers/index.js +668 -0
package/dist/matchers/index.js.map +1 -0
package/dist/observability.d.ts +82 -0
package/dist/observability.d.ts.map +1 -0
package/dist/observability.js +471 -0
package/dist/observability.js.map +1 -0
package/dist/portal-executor.d.ts +30 -0
package/dist/portal-executor.d.ts.map +1 -0
package/dist/portal-executor.js +324 -0
package/dist/portal-executor.js.map +1 -0
package/dist/portal-server.d.ts +3 -0
package/dist/portal-server.d.ts.map +1 -0
package/dist/portal-server.js +279 -0
package/dist/portal-server.js.map +1 -0
package/dist/proxy/llm-capture.d.ts +14 -0
package/dist/proxy/llm-capture.d.ts.map +1 -0
package/dist/proxy/llm-capture.js +264 -0
package/dist/proxy/llm-capture.js.map +1 -0
package/dist/reporter.d.ts +3 -0
package/dist/reporter.d.ts.map +1 -0
package/dist/reporter.js +72 -0
package/dist/reporter.js.map +1 -0
package/dist/runWorkflowSubprocess.d.ts +14 -0
package/dist/runWorkflowSubprocess.d.ts.map +1 -0
package/dist/runWorkflowSubprocess.js +66 -0
package/dist/runWorkflowSubprocess.js.map +1 -0
package/dist/runner.d.ts +16 -0
package/dist/runner.d.ts.map +1 -0
package/dist/runner.js +138 -0
package/dist/runner.js.map +1 -0
package/dist/socket-connector.d.ts +22 -0
package/dist/socket-connector.d.ts.map +1 -0
package/dist/socket-connector.js +104 -0
package/dist/socket-connector.js.map +1 -0
package/dist/telemetry-batcher.d.ts +56 -0
package/dist/telemetry-batcher.d.ts.map +1 -0
package/dist/telemetry-batcher.js +143 -0
package/dist/telemetry-batcher.js.map +1 -0
package/dist/test-setup.d.ts +12 -0
package/dist/test-setup.d.ts.map +1 -0
package/dist/test-setup.js +13 -0
package/dist/test-setup.js.map +1 -0
package/dist/tool-registry.d.ts +31 -0
package/dist/tool-registry.d.ts.map +1 -0
package/dist/tool-registry.js +73 -0
package/dist/tool-registry.js.map +1 -0
package/dist/tool-runner-worker.d.ts +2 -0
package/dist/tool-runner-worker.d.ts.map +1 -0
package/dist/tool-runner-worker.js +215 -0
package/dist/tool-runner-worker.js.map +1 -0
package/dist/trace-adapter/context.d.ts +72 -0
package/dist/trace-adapter/context.d.ts.map +1 -0
package/dist/trace-adapter/context.js +80 -0
package/dist/trace-adapter/context.js.map +1 -0
package/dist/tracing.d.ts +2 -0
package/dist/tracing.d.ts.map +1 -0
package/dist/tracing.js +59 -0
package/dist/tracing.js.map +1 -0
package/dist/trigger-executor.d.ts +12 -0
package/dist/trigger-executor.d.ts.map +1 -0
package/dist/trigger-executor.js +130 -0
package/dist/trigger-executor.js.map +1 -0
package/dist/types/portal.d.ts +76 -0
package/dist/types/portal.d.ts.map +1 -0
package/dist/types/portal.js +2 -0
package/dist/types/portal.js.map +1 -0
package/dist/utils/debug.d.ts +3 -0
package/dist/utils/debug.d.ts.map +1 -0
package/dist/utils/debug.js +8 -0
package/dist/utils/debug.js.map +1 -0
package/dist/utils/license-error.d.ts +23 -0
package/dist/utils/license-error.d.ts.map +1 -0
package/dist/utils/license-error.js +42 -0
package/dist/utils/license-error.js.map +1 -0
package/dist/utils/redact.d.ts +7 -0
package/dist/utils/redact.d.ts.map +1 -0
package/dist/utils/redact.js +26 -0
package/dist/utils/redact.js.map +1 -0
package/dist/workflow-runner-worker.d.ts +2 -0
package/dist/workflow-runner-worker.d.ts.map +1 -0
package/dist/workflow-runner-worker.js +329 -0
package/dist/workflow-runner-worker.js.map +1 -0
package/dist/workflow-runner.d.ts +14 -0
package/dist/workflow-runner.d.ts.map +1 -0
package/dist/workflow-runner.js +34 -0
package/dist/workflow-runner.js.map +1 -0
package/docs/agent-coding-instructions.md +138 -0
package/docs/agent-integration-guide.md +564 -0
package/docs/agents.md +140 -0
package/docs/dashboard.md +394 -0
package/docs/deno.md +69 -0
package/docs/instrumentation.md +424 -0
package/docs/langfuse-trace-structure.md +145 -0
package/docs/matchers.md +173 -0
package/docs/observability_contract.md +192 -0
package/docs/observability_mode.md +195 -0
package/docs/quickstart.md +621 -0
package/docs/security-compliance.md +566 -0
package/docs/test-writing-guidelines.md +444 -0
package/docs/tools.md +165 -0
package/docs/workflow-modes.md +253 -0
package/package.json +76 -0
package/src/browser-ui.ts +281 -0
package/src/capture/event.ts +30 -0
package/src/capture/index.ts +3 -0
package/src/capture/recorder.ts +62 -0
package/src/capture/replay.ts +55 -0
package/src/ci/api-client.ts +136 -0
package/src/ci/benchmark.ts +257 -0
package/src/ci/ed-runner.ts +351 -0
package/src/ci/executor.ts +671 -0
package/src/ci/git-info.ts +127 -0
package/src/ci/index.ts +5 -0
package/src/ci/measurement.ts +25 -0
package/src/ci/replay.ts +127 -0
package/src/ci/reporters/default.ts +50 -0
package/src/ci/reporters/index.ts +21 -0
package/src/ci/reporters/json.ts +18 -0
package/src/ci/reporters/junit.ts +61 -0
package/src/ci/runner.ts +208 -0
package/src/ci/test-discovery.ts +16 -0
package/src/ci/test-loader.ts +187 -0
package/src/ci/test-registry.ts +62 -0
package/src/ci/trace-schema.ts +96 -0
package/src/ci/trace-writer.ts +107 -0
package/src/ci/types.ts +115 -0
package/src/ci/upload-client.ts +300 -0
package/src/cli.ts +811 -0
package/src/core/agent-state.ts +162 -0
package/src/core/judge-utils.ts +232 -0
package/src/core/registry.ts +92 -0
package/src/dashboard-server.ts +2047 -0
package/src/execution/tool-runner.ts +352 -0
package/src/html/dashboard.html +2218 -0
package/src/http.ts +13 -0
package/src/index.ts +138 -0
package/src/interceptors/ai-interceptor.ts +798 -0
package/src/interceptors/db-auto.ts +243 -0
package/src/interceptors/db.ts +156 -0
package/src/interceptors/http.ts +393 -0
package/src/interceptors/side-effects.ts +83 -0
package/src/interceptors/telemetry-push.ts +537 -0
package/src/interceptors/tool.ts +287 -0
package/src/interceptors/workflow-ai.ts +419 -0
package/src/internals/conditional-recorder.ts +63 -0
package/src/internals/mock-resolver.ts +492 -0
package/src/matchers/index.ts +824 -0
package/src/observability.ts +501 -0
package/src/portal-executor.ts +355 -0
package/src/portal-server.ts +304 -0
package/src/proxy/llm-capture.ts +301 -0
package/src/reporter.ts +81 -0
package/src/runWorkflowSubprocess.ts +74 -0
package/src/runner.ts +178 -0
package/src/socket-connector.ts +117 -0
package/src/telemetry-batcher.ts +191 -0
package/src/test-setup.ts +16 -0
package/src/tool-registry.ts +94 -0
package/src/tool-runner-worker.ts +244 -0
package/src/trace-adapter/context.ts +156 -0
package/src/tracing.ts +62 -0
package/src/trigger-executor.ts +171 -0
package/src/types/agent.d.ts +63 -0
package/src/types/expect.d.ts +81 -0
package/src/types/modules.d.ts +2 -0
package/src/types/portal.ts +69 -0
package/src/utils/debug.ts +8 -0
package/src/utils/license-error.ts +43 -0
package/src/utils/redact.ts +25 -0
package/src/workflow-runner-worker.ts +386 -0
package/src/workflow-runner.ts +58 -0

package/docs/matchers.md ADDED Viewed

@@ -0,0 +1,173 @@
+# Test Matchers
+ElasticDash SDK provides AI-specific matchers for asserting on workflow traces.
+## Overview
+All matchers work with `expect(ctx.trace)` after importing the test setup:
+```ts
+import '../node_modules/elasticdash-sdk/dist/test-setup.js'
+import { expect } from 'expect'
+aiTest('my test', async (ctx) => {
+  // ... run your workflow
+  expect(ctx.trace).toHaveLLMStep({ model: 'gpt-4' })
+})
+```
+---
+## `toHaveLLMStep(config?)`
+Assert the trace contains at least one LLM step matching the given config. All fields are optional and combined with AND logic.
+```ts
+expect(ctx.trace).toHaveLLMStep({ model: 'gpt-4' })
+expect(ctx.trace).toHaveLLMStep({ contains: 'order confirmed' })       // searches prompt + completion
+expect(ctx.trace).toHaveLLMStep({ promptContains: 'order status' })    // searches prompt only
+expect(ctx.trace).toHaveLLMStep({ outputContains: 'order confirmed' }) // searches completion only
+expect(ctx.trace).toHaveLLMStep({ provider: 'openai' })
+expect(ctx.trace).toHaveLLMStep({ provider: 'openai', promptContains: 'order status' })
+expect(ctx.trace).toHaveLLMStep({ promptContains: 'retry', times: 3 })      // exactly 3 matching steps
+expect(ctx.trace).toHaveLLMStep({ provider: 'openai', minTimes: 2 })        // at least 2 matching steps
+expect(ctx.trace).toHaveLLMStep({ outputContains: 'error', maxTimes: 1 })   // at most 1 matching step
+```
+### Configuration Options
+| Field | Description |
+|---|---|
+| `model` | Exact model name match (e.g. `'gpt-4o'`) |
+| `contains` | Substring match across prompt + completion (case-insensitive) |
+| `promptContains` | Substring match in prompt only (case-insensitive) |
+| `outputContains` | Substring match in completion only (case-insensitive) |
+| `provider` | Provider name: `'openai'`, `'gemini'`, or `'grok'` |
+| `times` | Exact match count (fails unless exactly this many steps match) |
+| `minTimes` | Minimum match count (steps matching must be ≥ this value) |
+| `maxTimes` | Maximum match count (steps matching must be ≤ this value) |
+---
+## `toCallTool(toolName)`
+Assert the trace contains a tool call with the given name.
+```ts
+expect(ctx.trace).toCallTool('chargeCard')
+```
+---
+## `toMatchSemanticOutput(expected, options?)`
+LLM-judged semantic match of combined LLM output vs. the expected string. Defaults to OpenAI GPT-4 with `OPENAI_API_KEY`.
+```ts
+expect(ctx.trace).toMatchSemanticOutput('attack stat', {
+  provider: 'claude',               // 'openai' (default) | 'claude' | 'gemini' | 'grok'
+  model: 'claude-3-opus-20240229',  // overrides default model for the provider
+  sdk: myClaudeClient,              // optional SDK instance (uses its chat/messages API)
+})
+// Minimal, using default OpenAI model
+expect(ctx.trace).toMatchSemanticOutput('order confirmed')
+// OpenAI-compatible endpoint (e.g., Moonshot/Kimi) via baseURL + apiKey
+expect(ctx.trace).toMatchSemanticOutput('order confirmed', {
+  provider: 'openai',
+  model: 'kimi-k2-turbo-preview',
+  apiKey: process.env.KIMI_API_KEY,
+  baseURL: 'https://api.moonshot.ai/v1',
+})
+```
+Environment keys by provider: `OPENAI_API_KEY`, `ANTHROPIC_API_KEY`, `GEMINI_API_KEY` (or `GOOGLE_API_KEY`), `GROK_API_KEY`.
+---
+## `toEvaluateOutputMetric(config)`
+Evaluate one LLM step's prompt or result using an LLM and assert a numeric metric condition in the range 0.0–1.0.
+Defaults: `target='result'`, `condition='atLeast 0.7'`, `provider='openai'`, `model='gpt-4'`.
+```ts
+// Evaluate the last LLM result with your own prompt; default condition atLeast 0.7
+expect(ctx.trace).toEvaluateOutputMetric({
+  evaluationPrompt: 'Rate how well this answers the user question.',
+})
+// Check a specific step (3rd LLM prompt), target the prompt text, require >= 0.8 via Claude
+expect(ctx.trace).toEvaluateOutputMetric({
+  evaluationPrompt: 'Score coherence of this prompt between 0 and 1.',
+  target: 'prompt',
+  nth: 3,
+  condition: { atLeast: 0.8 },
+  provider: 'claude',
+  model: 'claude-3-opus-20240229',
+})
+// Custom comparator: score must be < 0.3
+expect(ctx.trace).toEvaluateOutputMetric({
+  evaluationPrompt: 'Rate hallucination risk (0=none, 1=high).',
+  condition: { lessThan: 0.3 },
+})
+```
+### Configuration Options
+- `evaluationPrompt` (required): your scoring instructions; model is asked to return only a number between 0 and 1.
+- `target`: `'result'` (default) or `'prompt'`. Evaluates that text only.
+- `index` / `nth`: pick which LLM step to score (0-based or 1-based). Defaults to the last LLM step.
+- `condition`: one of `greaterThan`, `lessThan`, `atLeast`, `atMost`, `equals`; default is `{ atLeast: 0.7 }`.
+- `provider` / `model` / `sdk` / `apiKey` / `baseURL`: same shape as `toMatchSemanticOutput`.
+---
+## `toHaveCustomStep(config?)`
+Assert a recorded custom step (RAG/code/fixed/custom) matches filters.
+```ts
+expect(ctx.trace).toHaveCustomStep({ kind: 'rag', name: 'pokemon-search' })
+expect(ctx.trace).toHaveCustomStep({ tag: 'sort:asc' })
+expect(ctx.trace).toHaveCustomStep({ contains: 'pikachu' })
+expect(ctx.trace).toHaveCustomStep({ resultContains: '25' })
+expect(ctx.trace).toHaveCustomStep({ kind: 'rag', minTimes: 1, maxTimes: 2 })
+```
+---
+## `toHavePromptWhere(config)`
+Filter prompts, then assert additional constraints. Example: "all prompts containing A must also contain B".
+```ts
+// Prompts that contain "order" must also contain "confirmed"
+expect(ctx.trace).toHavePromptWhere({
+  filterContains: 'order',
+  requireContains: 'confirmed',
+})
+// Prompts containing "retry" must NOT contain "cancel"
+expect(ctx.trace).toHavePromptWhere({
+  filterContains: 'retry',
+  requireNotContains: 'cancel',
+})
+// And control counts on the filtered subset
+expect(ctx.trace).toHavePromptWhere({
+  filterContains: 'order',
+  requireContains: 'confirmed',
+  minTimes: 1,
+  maxTimes: 3,
+})
+// Check a specific prompt position (1-based nth or 0-based index)
+expect(ctx.trace).toHavePromptWhere({
+  filterContains: 'order',
+  requireContains: 'confirmed',
+  nth: 3, // the 3rd prompt among those containing "order"
+})
+```

package/docs/observability_contract.md ADDED Viewed

@@ -0,0 +1,192 @@
+# Observability SDK Contract
+This document describes the event types the SDK sends and the portal (remote rerun queue) contract between the SDK and the backend.
+---
+## SDK Event Types
+### Events the SDK Sends
+| `type` | `name` | When | Key fields |
+|--------|--------|------|------------|
+| `ai` | Model name (e.g. `gpt-4o`) | Every `wrapAI` call | `input`, `output`, `usage`, `durationMs`, `streamed` |
+| `tool` | Tool name (e.g. `searchDB`) | Every `wrapTool` call | `input`, `output`, `durationMs`, `streamed` |
+| `side_effect` | `__heartbeat__` | Every 30s (configurable) | `input.sessionId`, `output.uptime` |
+| `side_effect` | `__session_end__` | On `shutdownObservability()` | `input.sessionId`, `output.uptime` |
+### Special Events (do not display in trace UI)
+- `__heartbeat__` — update session liveness, do not store as event
+- `__session_end__` — mark session as ended, do not store as event
+### Streamed Events
+When `streamed === true`:
+- `output` is `null`
+- `streamRaw` contains the full buffered text of the stream
+- Display `streamRaw` as the output in the UI
+### Error Events
+When a tool or AI call throws:
+- `output` is `{ "error": "Error message string" }`
+- `durationMs` reflects time until failure
+- Display with error styling in the UI
+---
+## Portal (Remote Rerun Queue) Contract
+The SDK's `elasticdash portal` command starts an HTTP server that the backend can push rerun tasks to. The backend also needs endpoints to receive results.
+### SDK Portal Endpoints (hosted on user's machine, default port 4574)
+These endpoints are served by the SDK. The backend calls them.
+#### `POST /api/portal/tasks` — Push a single rerun task
+**Request:**
+```json
+{
+  "taskId": "task-uuid-from-backend",
+  "type": "tool",
+  "name": "searchDB",
+  "input": { "query": "pikachu" },
+  "metadata": { "testGroupId": 42, "expectationIds": [1, 2, 3] }
+}
+```
+For AI tasks:
+```json
+{
+  "taskId": "task-uuid-from-backend",
+  "type": "ai",
+  "name": "gpt-4o",
+  "input": { "messages": [{ "role": "user", "content": "Hello" }] },
+  "model": "gpt-4o",
+  "provider": "openai",
+  "modelParameters": { "temperature": 0.7, "max_tokens": 512 },
+  "metadata": { "testGroupId": 42 }
+}
+```
+**Response:** `202 Accepted`
+```json
+{ "ok": true, "taskId": "task-uuid-from-backend", "position": 3 }
+```
+**Auth:** `Authorization: Bearer <api_key>` (validated if portal was started with `--api-key`)
+#### `POST /api/portal/tasks/batch` — Push multiple tasks
+**Request:**
+```json
+{ "tasks": [ /* PortalTask[] */ ] }
+```
+**Response:** `202 Accepted`
+```json
+{ "ok": true, "tasks": [{ "taskId": "...", "position": 1 }, { "taskId": "...", "position": 2 }] }
+```
+#### `GET /api/portal/status` — Health check
+**Response:**
+```json
+{
+  "ok": true,
+  "queueLength": 5,
+  "processing": "task-uuid-123",
+  "completed": 12,
+  "failed": 1
+}
+```
+#### `DELETE /api/portal/tasks/:taskId` — Cancel a pending task
+**Response:** `200` if removed, `404` if not found or already processing.
+---
+### Backend Endpoints (needed for portal to work)
+These endpoints must be implemented on the backend. The SDK calls them.
+#### `POST /api/portal/register` — Portal registration
+Called by the SDK when `elasticdash portal` starts.
+**Request:**
+```json
+{
+  "portalUrl": "http://localhost:4574"
+}
+```
+**Auth:** `Authorization: Bearer <api_key>`
+**Response:** `200 OK`
+```json
+{ "ok": true }
+```
+The backend should store this portal URL and use it to push tasks. The registration should be scoped to the project resolved from the API key.
+#### `POST /api/portal/results/:taskId` — Receive task result
+Called by the SDK after each task completes (success or failure).
+**Request:**
+```json
+{
+  "taskId": "task-uuid-from-backend",
+  "ok": true,
+  "output": "The search returned 3 results for pikachu...",
+  "durationMs": 245,
+  "usage": {
+    "inputTokens": 150,
+    "outputTokens": 45,
+    "totalTokens": 195
+  },
+  "metadata": { "testGroupId": 42, "expectationIds": [1, 2, 3] }
+}
+```
+For failed tasks:
+```json
+{
+  "taskId": "task-uuid-from-backend",
+  "ok": false,
+  "output": null,
+  "error": "Tool not found: \"searchDB\". Available tools: fetchData, sendEmail",
+  "durationMs": 0,
+  "metadata": { "testGroupId": 42 }
+}
+```
+**Auth:** `Authorization: Bearer <api_key>`
+**Response:** `200 OK`
+```json
+{ "ok": true }
+```
+---
+### Error Results Reference
+The SDK sends these error patterns:
+| Error pattern | Meaning |
+|--------------|---------|
+| `Tool not found: "<name>". Available tools: ...` | Tool doesn't exist in `ed_tools.ts` |
+| `Cannot find ed_tools.ts/js in workspace root.` | No tools module in the project |
+| `Unsupported AI provider: "<name>"` | Unknown provider string |
+| `Missing API key for provider "<name>". Expected environment variable: <VAR>` | LLM API key not configured |
+| `AI task input is empty; cannot execute.` | No prompt could be extracted from input |
+| `AI execution failed: <message>` | LLM API call failed (rate limit, network, invalid model) |
+| `Tool subprocess produced no output.` | Subprocess exited without result |
+| `Failed to spawn tool subprocess: <message>` | Could not start subprocess |
+| `Missing tool name on task.` | Task had no `name` field |
+| `Unknown task type: <type>` | Task type was neither `tool` nor `ai` |

package/docs/observability_mode.md ADDED Viewed

@@ -0,0 +1,195 @@
+# Observability Mode
+Observability mode turns the ElasticDash SDK into an always-on tracing instrument. When enabled, every `wrapTool` and `wrapAI` call automatically records and streams trace events to your ElasticDash backend — no test runner required.
+## Quick Start
+### Option 1: Programmatic (recommended)
+Add a single call at your app's entry point:
+```typescript
+// instrumentation.ts (Next.js) or server entry point
+import { initObservability } from 'elasticdash-sdk/http'
+const obs = initObservability({
+  serverUrl: 'https://server.elasticdash.com',
+})
+// On shutdown (optional — auto-registered on process exit)
+// await obs.shutdown()
+```
+### Option 2: Environment Variables Only
+If your app already uses `wrapTool` / `wrapAI`, just set the env vars:
+```bash
+ELASTICDASH_API_URL=https://server.elasticdash.com \
+ELASTICDASH_API_KEY=ed_key_xxx \
+node server.js
+```
+### Option 3: CLI
+```bash
+elasticdash observe --server https://server.elasticdash.com
+```
+## Configuration
+### `initObservability(options?)`
+| Option | Env Variable | Default | Description |
+|--------|-------------|---------|-------------|
+| `serverUrl` | `ELASTICDASH_API_URL` | *required* | ElasticDash backend URL |
+| `apiKey` | `ELASTICDASH_API_KEY` | — | Project authentication token |
+| `sessionId` | `ELASTICDASH_SESSION_ID` | auto-generated UUID | Session identifier |
+| `batchIntervalMs` | — | `2000` | How often to flush events (ms) |
+| `maxBatchSize` | — | `50` | Max events per batch before auto-flush |
+| `heartbeatIntervalMs` | — | `30000` | Heartbeat interval (ms) |
+| `sampleRate` | — | `1.0` | Fraction of events to send (0.0–1.0) |
+| `redactKeys` | — | `[]` | Object keys to redact from input/output |
+### Return Value
+```typescript
+interface ObservabilityHandle {
+  sessionId: string        // The active session ID
+  shutdown: () => Promise<void>  // Graceful shutdown
+}
+```
+## Grouping Events by Workflow with `startTrace()`
+By default, the SDK discovers workflow names from `ed_workflows.ts`. If exactly one workflow is exported, its name is used as the traceId prefix automatically (e.g. `chatStreamHandler::1712851200000::a1b2c3d4`). If multiple workflows are exported, the traceId defaults to `unknown-workflow` until you call `startTrace()`.
+To explicitly group events under a specific workflow, call `startTrace(workflowName)` at the start of each request handler:
+```typescript
+import { startTrace } from 'elasticdash-sdk/http'
+// In your route handler, before any wrapTool/wrapAI calls:
+startTrace('chatStreamHandler')
+```
+This sets the traceId to `chatStreamHandler::1712851200000::a1b2c3d4`, so all subsequent `wrapTool` / `wrapAI` / `wrapDB` / fetch calls in that request are grouped under the `chatStreamHandler` workflow in the dashboard.
+**Important:** Call `startTrace()` before any tool/AI calls execute. If you're using a streaming `ReadableStream`, place it inside the `start()` callback:
+```typescript
+const stream = new ReadableStream({
+  async start(controller) {
+    startTrace('chatStreamHandler')
+    // ... workflow logic with wrapTool/wrapAI calls ...
+  },
+})
+```
+### Alternative: `wrapWorkflow()`
+If you control the workflow function directly, you can use `wrapWorkflow()` instead. It calls `startTrace()` automatically before each invocation:
+```typescript
+import { wrapWorkflow } from 'elasticdash-sdk/http'
+export const chatStreamHandler = wrapWorkflow('chatStreamHandler', async (input) => {
+  // All tool/AI calls here are automatically grouped under 'chatStreamHandler'
+  const result = await fetchUser(input.userId)
+  return generateReply(result)
+})
+```
+## How It Works
+1. **`initObservability()`** creates an `ObservabilityContext` and installs the AI interceptor
+2. Every `wrapTool(name, fn)` and `wrapAI(model, fn)` call checks for this context
+3. When active, the wrapper executes the real function, captures timing/input/output, and enqueues the event
+4. Events are batched and flushed to `POST /api/observability/events` on the backend
+5. A heartbeat event is sent every 30 seconds (configurable) so the backend knows the service is alive
+6. On process exit, remaining events are flushed and a `session_end` event is sent
+### Event Flow
+```
+wrapTool("searchDB", fn) called
+  → fn(...args) executes normally
+  → WorkflowEvent created: { type: 'tool', name: 'searchDB', input, output, durationMs }
+  → pushTelemetryEvent(event)
+  → TelemetryBatcher.enqueue(event)
+  → Batch flushed every 2s → POST /api/observability/events
+```
+## Sampling & Redaction
+### Sampling
+For high-throughput services, use `sampleRate` to reduce event volume:
+```typescript
+initObservability({
+  serverUrl: 'https://server.elasticdash.com',
+  sampleRate: 0.1, // Send only 10% of events
+})
+```
+### Redaction
+Strip sensitive fields from input/output before sending:
+```typescript
+initObservability({
+  serverUrl: 'https://server.elasticdash.com',
+  redactKeys: ['apiKey', 'password', 'ssn', 'credit_card'],
+})
+```
+This deep-clones and replaces matching keys (case-insensitive) with `"[REDACTED]"` before serialization.
+## Batching & Reliability
+Events are not sent individually — they are buffered and flushed in batches:
+- **Interval flush**: every `batchIntervalMs` (default 2 seconds)
+- **Size flush**: when the buffer reaches `maxBatchSize` (default 50 events)
+- **Exit flush**: on `beforeExit`, `SIGTERM`, or `SIGINT`
+Failed flushes are retried with exponential backoff (1s, 2s, 4s) up to 3 times. After max retries, events are dropped to prevent memory leaks.
+## Graceful Shutdown
+Shutdown happens automatically on process exit signals. For manual control (e.g., serverless functions):
+```typescript
+import { shutdownObservability } from 'elasticdash-sdk/http'
+// In your cleanup handler
+await shutdownObservability()
+```
+This flushes all buffered events, sends a `session_end` marker, and clears the context.
+## Debug Logging
+To see SDK internal logs (telemetry push status, batch flush counts, etc.), set:
+```bash
+ELASTICDASH_DEBUG=1 node server.js
+```
+All internal `console.log` calls are gated behind this flag and produce no output by default.
+## Comparison with Test Mode
+| Feature | Test Mode | Observability Mode |
+|---------|-----------|-------------------|
+| Requires test runner | Yes | No |
+| Mocking support | Yes | No |
+| Step replay/freezing | Yes | No |
+| Event delivery | Fire-and-forget per event | Batched with retry |
+| Sampling | No | Yes |
+| Redaction | No | Yes |
+| Heartbeat | No | Yes |
+| Graceful shutdown | No | Yes |
+Both modes use the same `wrapTool` / `wrapAI` wrappers — the SDK detects which context is active and routes events accordingly.