npm - langwatch - Versions diffs - 0.1.7 → 0.3.0-prerelease.1 - Mend

langwatch 0.1.7 → 0.3.0-prerelease.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (235) hide show

package/.editorconfig +16 -0
package/LICENSE +7 -0
package/README.md +268 -1
package/copy-types.sh +19 -8
package/examples/langchain/.env.example +2 -0
package/examples/langchain/README.md +42 -0
package/examples/langchain/package-lock.json +2930 -0
package/examples/langchain/package.json +27 -0
package/examples/langchain/src/cli-markdown.d.ts +137 -0
package/examples/langchain/src/index.ts +109 -0
package/examples/langchain/tsconfig.json +25 -0
package/examples/langgraph/.env.example +2 -0
package/examples/langgraph/README.md +42 -0
package/examples/langgraph/package-lock.json +3031 -0
package/examples/langgraph/package.json +28 -0
package/examples/langgraph/src/cli-markdown.d.ts +137 -0
package/examples/langgraph/src/index.ts +196 -0
package/examples/langgraph/tsconfig.json +25 -0
package/examples/mastra/.env.example +2 -0
package/examples/mastra/README.md +57 -0
package/examples/mastra/package-lock.json +5296 -0
package/examples/mastra/package.json +32 -0
package/examples/mastra/src/cli-markdown.d.ts +137 -0
package/examples/mastra/src/index.ts +120 -0
package/examples/mastra/src/mastra/agents/weather-agent.ts +30 -0
package/examples/mastra/src/mastra/index.ts +21 -0
package/examples/mastra/src/mastra/tools/weather-tool.ts +102 -0
package/examples/mastra/tsconfig.json +25 -0
package/examples/vercel-ai/.env.example +2 -0
package/examples/vercel-ai/README.md +38 -0
package/examples/vercel-ai/package-lock.json +2571 -0
package/examples/vercel-ai/package.json +27 -0
package/examples/vercel-ai/src/cli-markdown.d.ts +137 -0
package/examples/vercel-ai/src/index.ts +110 -0
package/examples/vercel-ai/src/instrumentation.ts +9 -0
package/examples/vercel-ai/tsconfig.json +25 -0
package/package.json +80 -33
package/src/__tests__/client-browser.test.ts +92 -0
package/src/__tests__/client-node.test.ts +76 -0
package/src/__tests__/client.test.ts +71 -0
package/src/__tests__/integration/client-browser.test.ts +46 -0
package/src/__tests__/integration/client-node.test.ts +46 -0
package/src/client-browser.ts +70 -0
package/src/client-node.ts +82 -0
package/src/client-shared.ts +72 -0
package/src/client.ts +119 -0
package/src/evaluation/__tests__/record-evaluation.test.ts +112 -0
package/src/evaluation/__tests__/run-evaluation.test.ts +171 -0
package/src/evaluation/index.ts +2 -0
package/src/evaluation/record-evaluation.ts +101 -0
package/src/evaluation/run-evaluation.ts +133 -0
package/src/evaluation/tracer.ts +3 -0
package/src/evaluation/types.ts +23 -0
package/src/index.ts +10 -591
package/src/internal/api/__tests__/errors.test.ts +98 -0
package/src/internal/api/client.ts +30 -0
package/src/internal/api/errors.ts +32 -0
package/src/internal/generated/types/.gitkeep +0 -0
package/src/observability/__tests__/integration/base.test.ts +74 -0
package/src/observability/__tests__/integration/browser-setup-ordering.test.ts +60 -0
package/src/observability/__tests__/integration/complex-nested-spans.test.ts +29 -0
package/src/observability/__tests__/integration/error-handling.test.ts +24 -0
package/src/observability/__tests__/integration/langwatch-disabled-otel.test.ts +24 -0
package/src/observability/__tests__/integration/langwatch-first-then-vercel.test.ts +24 -0
package/src/observability/__tests__/integration/multiple-setup-attempts.test.ts +27 -0
package/src/observability/__tests__/integration/otel-ordering.test.ts +27 -0
package/src/observability/__tests__/integration/vercel-configurations.test.ts +20 -0
package/src/observability/__tests__/integration/vercel-first-then-langwatch.test.ts +27 -0
package/src/observability/__tests__/span.test.ts +214 -0
package/src/observability/__tests__/trace.test.ts +180 -0
package/src/observability/exporters/index.ts +1 -0
package/src/observability/exporters/langwatch-exporter.ts +53 -0
package/src/observability/index.ts +4 -0
package/src/observability/instrumentation/langchain/__tests__/integration/langchain-chatbot.test.ts +112 -0
package/src/observability/instrumentation/langchain/__tests__/langchain.test.ts +284 -0
package/src/observability/instrumentation/langchain/index.ts +624 -0
package/src/observability/processors/__tests__/filterable-batch-span-exporter.test.ts +98 -0
package/src/observability/processors/filterable-batch-span-processor.ts +99 -0
package/src/observability/processors/index.ts +1 -0
package/src/observability/semconv/attributes.ts +185 -0
package/src/observability/semconv/events.ts +42 -0
package/src/observability/semconv/index.ts +16 -0
package/src/observability/semconv/values.ts +159 -0
package/src/observability/span.ts +728 -0
package/src/observability/trace.ts +301 -0
package/src/prompt/__tests__/prompt.test.ts +139 -0
package/src/prompt/get-prompt-version.ts +49 -0
package/src/prompt/get-prompt.ts +44 -0
package/src/prompt/index.ts +3 -0
package/src/prompt/prompt.ts +133 -0
package/src/prompt/service.ts +221 -0
package/src/prompt/tracer.ts +3 -0
package/src/prompt/types.ts +0 -0
package/ts-to-zod.config.js +11 -0
package/tsconfig.json +3 -9
package/tsup.config.ts +11 -1
package/vitest.config.ts +1 -0
package/dist/chunk-FWBCQQYZ.mjs +0 -711
package/dist/chunk-FWBCQQYZ.mjs.map +0 -1
package/dist/index.d.mts +0 -1010
package/dist/index.d.ts +0 -1010
package/dist/index.js +0 -27294
package/dist/index.js.map +0 -1
package/dist/index.mjs +0 -959
package/dist/index.mjs.map +0 -1
package/dist/utils-B0pgWcps.d.mts +0 -303
package/dist/utils-B0pgWcps.d.ts +0 -303
package/dist/utils.d.mts +0 -2
package/dist/utils.d.ts +0 -2
package/dist/utils.js +0 -703
package/dist/utils.js.map +0 -1
package/dist/utils.mjs +0 -11
package/dist/utils.mjs.map +0 -1
package/example/.env.example +0 -12
package/example/.eslintrc.json +0 -26
package/example/LICENSE +0 -13
package/example/README.md +0 -12
package/example/app/(chat)/chat/[id]/page.tsx +0 -60
package/example/app/(chat)/layout.tsx +0 -14
package/example/app/(chat)/page.tsx +0 -27
package/example/app/actions.ts +0 -156
package/example/app/globals.css +0 -76
package/example/app/guardrails/page.tsx +0 -26
package/example/app/langchain/page.tsx +0 -27
package/example/app/langchain-rag/page.tsx +0 -28
package/example/app/late-update/page.tsx +0 -27
package/example/app/layout.tsx +0 -64
package/example/app/login/actions.ts +0 -71
package/example/app/login/page.tsx +0 -18
package/example/app/manual/page.tsx +0 -27
package/example/app/new/page.tsx +0 -5
package/example/app/opengraph-image.png +0 -0
package/example/app/share/[id]/page.tsx +0 -58
package/example/app/signup/actions.ts +0 -111
package/example/app/signup/page.tsx +0 -18
package/example/app/twitter-image.png +0 -0
package/example/auth.config.ts +0 -42
package/example/auth.ts +0 -45
package/example/components/button-scroll-to-bottom.tsx +0 -36
package/example/components/chat-history.tsx +0 -49
package/example/components/chat-list.tsx +0 -52
package/example/components/chat-message-actions.tsx +0 -40
package/example/components/chat-message.tsx +0 -80
package/example/components/chat-panel.tsx +0 -139
package/example/components/chat-share-dialog.tsx +0 -95
package/example/components/chat.tsx +0 -84
package/example/components/clear-history.tsx +0 -75
package/example/components/empty-screen.tsx +0 -38
package/example/components/external-link.tsx +0 -29
package/example/components/footer.tsx +0 -19
package/example/components/header.tsx +0 -114
package/example/components/login-button.tsx +0 -42
package/example/components/login-form.tsx +0 -97
package/example/components/markdown.tsx +0 -9
package/example/components/prompt-form.tsx +0 -115
package/example/components/providers.tsx +0 -17
package/example/components/sidebar-actions.tsx +0 -125
package/example/components/sidebar-desktop.tsx +0 -19
package/example/components/sidebar-footer.tsx +0 -16
package/example/components/sidebar-item.tsx +0 -124
package/example/components/sidebar-items.tsx +0 -42
package/example/components/sidebar-list.tsx +0 -38
package/example/components/sidebar-mobile.tsx +0 -31
package/example/components/sidebar-toggle.tsx +0 -24
package/example/components/sidebar.tsx +0 -21
package/example/components/signup-form.tsx +0 -95
package/example/components/stocks/events-skeleton.tsx +0 -31
package/example/components/stocks/events.tsx +0 -30
package/example/components/stocks/index.tsx +0 -36
package/example/components/stocks/message.tsx +0 -134
package/example/components/stocks/spinner.tsx +0 -16
package/example/components/stocks/stock-purchase.tsx +0 -146
package/example/components/stocks/stock-skeleton.tsx +0 -22
package/example/components/stocks/stock.tsx +0 -210
package/example/components/stocks/stocks-skeleton.tsx +0 -9
package/example/components/stocks/stocks.tsx +0 -67
package/example/components/tailwind-indicator.tsx +0 -14
package/example/components/theme-toggle.tsx +0 -31
package/example/components/ui/alert-dialog.tsx +0 -141
package/example/components/ui/badge.tsx +0 -36
package/example/components/ui/button.tsx +0 -57
package/example/components/ui/codeblock.tsx +0 -148
package/example/components/ui/dialog.tsx +0 -122
package/example/components/ui/dropdown-menu.tsx +0 -205
package/example/components/ui/icons.tsx +0 -507
package/example/components/ui/input.tsx +0 -25
package/example/components/ui/label.tsx +0 -26
package/example/components/ui/select.tsx +0 -164
package/example/components/ui/separator.tsx +0 -31
package/example/components/ui/sheet.tsx +0 -140
package/example/components/ui/sonner.tsx +0 -31
package/example/components/ui/switch.tsx +0 -29
package/example/components/ui/textarea.tsx +0 -24
package/example/components/ui/tooltip.tsx +0 -30
package/example/components/user-menu.tsx +0 -53
package/example/components.json +0 -17
package/example/instrumentation.ts +0 -11
package/example/lib/chat/guardrails.tsx +0 -181
package/example/lib/chat/langchain-rag.tsx +0 -191
package/example/lib/chat/langchain.tsx +0 -112
package/example/lib/chat/late-update.tsx +0 -208
package/example/lib/chat/manual.tsx +0 -605
package/example/lib/chat/vercel-ai.tsx +0 -576
package/example/lib/hooks/use-copy-to-clipboard.tsx +0 -33
package/example/lib/hooks/use-enter-submit.tsx +0 -23
package/example/lib/hooks/use-local-storage.ts +0 -24
package/example/lib/hooks/use-scroll-anchor.tsx +0 -86
package/example/lib/hooks/use-sidebar.tsx +0 -60
package/example/lib/hooks/use-streamable-text.ts +0 -25
package/example/lib/types.ts +0 -41
package/example/lib/utils.ts +0 -89
package/example/middleware.ts +0 -8
package/example/next-env.d.ts +0 -5
package/example/next.config.js +0 -16
package/example/package-lock.json +0 -9990
package/example/package.json +0 -84
package/example/pnpm-lock.yaml +0 -5712
package/example/postcss.config.js +0 -6
package/example/prettier.config.cjs +0 -34
package/example/public/apple-touch-icon.png +0 -0
package/example/public/favicon-16x16.png +0 -0
package/example/public/favicon.ico +0 -0
package/example/public/next.svg +0 -1
package/example/public/thirteen.svg +0 -1
package/example/public/vercel.svg +0 -1
package/example/tailwind.config.ts +0 -81
package/example/tsconfig.json +0 -35
package/src/LangWatchExporter.ts +0 -91
package/src/evaluations.ts +0 -219
package/src/index.test.ts +0 -402
package/src/langchain.ts +0 -557
package/src/typeUtils.ts +0 -89
package/src/types.ts +0 -79
package/src/utils.ts +0 -205
/package/src/{server/types → internal/generated/openapi}/.gitkeep +0 -0

package/src/evaluation/__tests__/run-evaluation.test.ts ADDED Viewed

@@ -0,0 +1,171 @@
+// --- Mock setup (must be at the top for Vitest hoisting) ---
+const { mockStartActiveSpan } = vi.hoisted(() => ({
+  mockStartActiveSpan: vi.fn((name, fn) => fn({
+    setType: vi.fn(),
+    setInput: vi.fn(),
+    setMetrics: vi.fn(),
+    setStatus: vi.fn(),
+    setOutputEvaluation: vi.fn(),
+    recordException: vi.fn(),
+    end: vi.fn(),
+    spanContext: () => ({ traceId: 'trace', spanId: 'span' }),
+  })),
+}));
+vi.mock('../tracer', () => ({ tracer: { startActiveSpan: mockStartActiveSpan } }));
+const mockFetch = vi.fn();
+globalThis.fetch = mockFetch;
+vi.mock('../../client', () => ({
+  canAutomaticallyCaptureInput: () => true,
+  getApiKey: () => 'test-key',
+  getEndpoint: () => 'https://api',
+}));
+// --- Imports (must be after mocks for Vitest hoisting) ---
+import { describe, it, expect, vi, beforeEach } from 'vitest';
+import { runEvaluation } from '../run-evaluation';
+import { LangWatchApiError } from '../../internal/api/errors';
+const baseProcessed = {
+  status: 'processed',
+  passed: true,
+  score: 1,
+  details: 'ok',
+  label: 'label',
+  cost: { currency: 'USD', amount: 0.1 },
+};
+const baseSkipped = { status: 'skipped', details: 'skipped' };
+const baseError = { status: 'error', details: 'fail', error_type: 'EvalError', traceback: ['trace'] };
+const details = {
+  name: 'test',
+  data: { input: 'foo', output: 'bar' },
+  evaluator: 'test-eval',
+};
+describe('runEvaluation', () => {
+  beforeEach(() => {
+    vi.clearAllMocks();
+  });
+  it('returns processed result', async () => {
+    mockFetch.mockResolvedValueOnce({
+      ok: true,
+      json: async () => ({ ...baseProcessed }),
+    });
+    const result = await runEvaluation(details as any);
+    expect(result.status).toBe('processed');
+    if (result.status === 'processed') {
+      expect(result.passed).toBe(true);
+      expect(result.score).toBe(1);
+      expect(result.details).toBe('ok');
+      expect(result.label).toBe('label');
+      expect(result.cost).toEqual({ currency: 'USD', amount: 0.1 });
+    } else {
+      throw new Error('Expected processed result');
+    }
+    expect(mockFetch).toHaveBeenCalledWith(
+      expect.stringContaining('/api/evaluations/test-eval/evaluate'),
+      expect.objectContaining({ method: 'POST' })
+    );
+  });
+  it('returns skipped result', async () => {
+    mockFetch.mockResolvedValueOnce({
+      ok: true,
+      json: async () => ({ ...baseSkipped }),
+    });
+    const result = await runEvaluation(details as any);
+    expect(result.status).toBe('skipped');
+    expect(result.details).toBe('skipped');
+  });
+  it('returns error result', async () => {
+    mockFetch.mockResolvedValueOnce({
+      ok: true,
+      json: async () => ({ ...baseError }),
+    });
+    const result = await runEvaluation(details as any);
+    expect(result.status).toBe('error');
+    if (result.status === 'error') {
+      expect(result.details).toBe('fail');
+      expect(result.error_type).toBe('EvalError');
+      expect(result.traceback).toEqual(['trace']);
+    } else {
+      throw new Error('Expected error result');
+    }
+  });
+  it('returns unknown status as error', async () => {
+    mockFetch.mockResolvedValueOnce({
+      ok: true,
+      json: async () => ({ status: 'weird' }),
+    });
+    const result = await runEvaluation(details as any);
+    expect(result.status).toBe('error');
+    if (result.status === 'error') {
+      expect(result.error_type).toBe('UnknownStatus');
+      expect(result.details).toContain('Unknown evaluation status');
+    } else {
+      throw new Error('Expected error result');
+    }
+  });
+  it('throws LangWatchApiError on non-ok response', async () => {
+    mockFetch.mockResolvedValueOnce({ ok: false, json: async () => ({}), status: 400, statusText: 'Bad', headers: { get: () => 'application/json' } });
+    await expect(runEvaluation(details as any)).rejects.toBeInstanceOf(LangWatchApiError);
+  });
+  it('propagates fetch errors', async () => {
+    mockFetch.mockRejectedValueOnce(new Error('network fail'));
+    await expect(runEvaluation(details as any)).rejects.toThrow('network fail');
+  });
+  it('calls setInput if canAutomaticallyCaptureInput is true', async () => {
+    vi.resetModules();
+    vi.doMock('../../client', () => ({
+      canAutomaticallyCaptureInput: () => true,
+      getApiKey: () => 'test-key',
+      getEndpoint: () => 'https://api',
+    }));
+    const span = {
+      setType: vi.fn(),
+      setInput: vi.fn(),
+      setMetrics: vi.fn(),
+      setOutputEvaluation: vi.fn(),
+      recordException: vi.fn(),
+      end: vi.fn(),
+      spanContext: () => ({ traceId: 'trace', spanId: 'span' }),
+    };
+    mockStartActiveSpan.mockImplementationOnce((name, fn) => fn(span));
+    mockFetch.mockResolvedValueOnce({ ok: true, json: async () => ({ ...baseProcessed }) });
+    const { runEvaluation: runEval } = await import('../run-evaluation.js');
+    await runEval(details as any);
+    expect(span.setInput).toHaveBeenCalledWith(expect.objectContaining({ trace_id: 'trace' }));
+  });
+  it('does not call setInput if canAutomaticallyCaptureInput is false', async () => {
+    vi.resetModules();
+    vi.doMock('../../client', () => ({
+      canAutomaticallyCaptureInput: () => false,
+      getApiKey: () => 'test-key',
+      getEndpoint: () => 'https://api',
+    }));
+    const span = {
+      setType: vi.fn(),
+      setInput: vi.fn(),
+      setMetrics: vi.fn(),
+      setOutputEvaluation: vi.fn(),
+      recordException: vi.fn(),
+      end: vi.fn(),
+      spanContext: () => ({ traceId: 'trace', spanId: 'span' }),
+    };
+    mockStartActiveSpan.mockImplementationOnce((name, fn) => fn(span));
+    mockFetch.mockResolvedValueOnce({ ok: true, json: async () => ({ ...baseProcessed }) });
+    const { runEvaluation: runEval } = await import('../run-evaluation.js');
+    await runEval(details as any);
+    expect(span.setInput).not.toHaveBeenCalled();
+  });
+});

package/src/evaluation/index.ts ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ export * from "./run-evaluation";
2	+ export * from "./record-evaluation";

package/src/evaluation/record-evaluation.ts ADDED Viewed

@@ -0,0 +1,101 @@
+import { EvaluationRESTResult } from "../internal/generated/types/evaluations";
+import * as intSemconv from "../observability/semconv";
+import { Attributes, SpanStatusCode } from "@opentelemetry/api";
+import { generate } from "xksuid";
+import { tracer } from "./tracer";
+export interface RecordedEvaluationDetails {
+  evaluationId?: string;
+  name: string;
+  type?: string;
+  isGuardrail?: boolean;
+  status?: "processed" | "skipped" | "error";
+  passed?: boolean;
+  score?: number;
+  label?: string;
+  details?: string;
+  cost?: number | { currency: string; amount: number };
+  error?: Error;
+  timestamps?: {
+    startedAtUnixMs: number;
+    finishedAtUnixMs: number;
+  };
+}
+export function recordEvaluation(
+  details: RecordedEvaluationDetails,
+  attributes?: Attributes,
+) {
+  let result: EvaluationRESTResult;
+  const status = details.status || "processed";
+  if (status === "skipped") {
+    result = {
+      status: "skipped",
+      details: details.details,
+    };
+  } else if (status === "error") {
+    result = {
+      status: "error",
+      error_type: details.error?.name || "Unknown",
+      details: details.details || details.error?.message || "Unknown error",
+    };
+  } else {
+    result = {
+      status: "processed",
+      passed: details.passed,
+      score: details.score,
+      label: details.label,
+      details: details.details,
+    };
+    if (details.cost) {
+      (result as any).cost =
+        typeof details.cost === "number"
+          ? { currency: "USD", amount: details.cost }
+          : details.cost;
+    }
+  }
+  tracer.startActiveSpan("record evaluation", (span) => {
+    try {
+      span.setType(details.isGuardrail ? "guardrail" : "evaluation");
+      span.addEvent(intSemconv.ATTR_LANGWATCH_EVALUATION_CUSTOM, {
+        json_encoded_event: JSON.stringify({
+          evaluation_id: details.evaluationId ?? `eval_${generate()}`,
+          name: details.name,
+          type: details.type,
+          is_guardrail: details.isGuardrail,
+          status: result.status,
+          passed: details.passed,
+          score: details.score,
+          label: details.label,
+          details: details.details,
+          cost: details.cost,
+          error: details.error,
+          timestamps: details.timestamps,
+        }),
+      });
+      span.setOutput(result);
+      if (attributes) {
+        span.setAttributes(attributes);
+      }
+      if (details.cost) {
+        span.setMetrics({
+          cost:
+            typeof details.cost === "number"
+              ? details.cost
+              : details.cost.amount,
+        });
+      }
+    } catch (error) {
+      span.recordException(error as Error);
+      span.setStatus({ code: SpanStatusCode.ERROR, message: (error as Error)?.message });
+    } finally {
+      span.end();
+    }
+    return;
+  });
+}

package/src/evaluation/run-evaluation.ts ADDED Viewed

@@ -0,0 +1,133 @@
+import { LangWatchApiError } from "../internal/api/errors";
+import { canAutomaticallyCaptureInput, getApiKey, getEndpoint } from "../client";
+import { Conversation } from "../internal/generated/types/evaluations";
+import {
+  Evaluators,
+  EvaluatorTypes,
+  SingleEvaluationResult,
+} from "../internal/generated/types/evaluators.generated";
+import { RAGChunk } from "../internal/generated/types/tracer";
+import { tracer } from "./tracer";
+import { EvaluationResultModel } from "./types";
+import { SpanStatusCode } from "@opentelemetry/api";
+export interface BasicEvaluationData {
+  input?: string;
+  output?: string;
+  expected_output?: unknown;
+  contexts?: RAGChunk[] | string[];
+  expected_contexts?: RAGChunk[] | string[];
+  conversation?: Conversation;
+}
+export interface EvaluationDetailsBase {
+  name?: string;
+  data: BasicEvaluationData | Record<string, unknown>;
+  contexts?: RAGChunk[] | string[];
+  conversation?: Conversation;
+  asGuardrail?: boolean;
+}
+export interface SavedEvaluationDetails extends EvaluationDetailsBase {
+  slug: string;
+  settings?: Record<string, unknown>;
+}
+export interface LangEvalsEvaluationDetails<T extends EvaluatorTypes>
+  extends EvaluationDetailsBase {
+  evaluator: T;
+  settings?: Evaluators[T]["settings"];
+}
+export type EvaluationDetails =
+  | SavedEvaluationDetails
+  | LangEvalsEvaluationDetails<EvaluatorTypes>;
+export async function runEvaluation(
+  details: EvaluationDetails,
+): Promise<SingleEvaluationResult> {
+  return await tracer.startActiveSpan("run evaluation", async (span) => {
+    span.setType(details.asGuardrail ? "guardrail" : "evaluation");
+    try {
+      const evaluatorId =
+        "slug" in details ? details.slug : details.evaluator;
+      const request = {
+        trace_id: span.spanContext().traceId,
+        span_id: span.spanContext().spanId,
+        data: details.data,
+        name: details.name,
+        settings: details.settings,
+        as_guardrail: details.asGuardrail,
+      };
+      if (canAutomaticallyCaptureInput()) {
+        span.setInput(request);
+      }
+      const url = new URL(
+        `/api/evaluations/${evaluatorId}/evaluate`,
+        getEndpoint(),
+      );
+      const response = await fetch(url.toString(), {
+        method: "POST",
+        headers: {
+          "X-Auth-Token": getApiKey(),
+          "Content-Type": "application/json",
+        },
+        body: JSON.stringify(request),
+      });
+      if (!response.ok) {
+        const err = new LangWatchApiError("Unable to run evaluation", response);
+        await err.safeParseBody(response);
+        throw err;
+      }
+      const result: EvaluationResultModel = await response.json();
+      span.setMetrics({
+        cost: result.cost?.amount,
+      });
+      span.setOutputEvaluation(details.asGuardrail ?? false, result);
+      if (result.status === "processed") {
+        return {
+          status: "processed",
+          passed: result.passed,
+          score: result.score,
+          details: result.details,
+          label: result.label,
+          cost: result.cost,
+        } as SingleEvaluationResult;
+      } else if (result.status === "skipped") {
+        return {
+          status: "skipped",
+          details: result.details,
+        } as SingleEvaluationResult;
+      } else if (result.status === "error") {
+        return {
+          status: "error",
+          error_type: (result as any).error_type || "Unknown",
+          details: result.details || "Unknown error",
+          traceback: (result as any).traceback || [],
+        } as SingleEvaluationResult;
+      } else {
+        return {
+          status: "error",
+          error_type: "UnknownStatus",
+          details: `Unknown evaluation status: ${result.status}`,
+          traceback: [],
+        } as SingleEvaluationResult;
+      }
+    } catch (error) {
+      span.recordException(error as Error);
+      span.setStatus({ code: SpanStatusCode.ERROR, message: (error as Error)?.message });
+      throw error;
+    } finally {
+      span.end();
+    }
+  });
+}

package/src/evaluation/tracer.ts ADDED Viewed

@@ -0,0 +1,3 @@
+import { getLangWatchTracer } from "../observability/trace";
+export const tracer = getLangWatchTracer("langwatch.evaluation");

package/src/evaluation/types.ts ADDED Viewed

@@ -0,0 +1,23 @@
+export class EvaluationError extends Error {
+  readonly httpStatus: number;
+  readonly body: unknown;
+  constructor(message: string, httpStatus: number, body: unknown) {
+    super(message);
+    this.name = "EvaluationError";
+    this.httpStatus = httpStatus;
+    this.body = body;
+  }
+}
+export interface EvaluationResultModel {
+  status: "processed" | "skipped" | "error";
+  passed?: boolean;
+  score?: number;
+  details?: string;
+  label?: string;
+  cost?: {
+    currency: string;
+    amount: number;
+  };
+}