npm - @pauly4010/evalai-sdk - Versions diffs - 1.5.7 → 1.6.0 - Mend

@pauly4010/evalai-sdk 1.5.7 → 1.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (41) hide show

package/CHANGELOG.md +46 -1
package/README.md +12 -3
package/dist/assertions.d.ts +11 -11
package/dist/assertions.js +1 -1
package/dist/batch.d.ts +3 -3
package/dist/batch.js +1 -1
package/dist/cache.d.ts +3 -3
package/dist/cache.js +1 -1
package/dist/cli/baseline.d.ts +10 -0
package/dist/cli/baseline.js +172 -0
package/dist/cli/formatters/github.js +1 -1
package/dist/cli/formatters/human.js +1 -1
package/dist/cli/formatters/pr-comment.js +1 -1
package/dist/cli/index.js +20 -4
package/dist/cli/regression-gate.d.ts +11 -0
package/dist/cli/regression-gate.js +150 -0
package/dist/client.d.ts +3 -3
package/dist/client.js +3 -2
package/dist/client.request.test.d.ts +1 -0
package/dist/client.request.test.js +157 -0
package/dist/context.d.ts +4 -4
package/dist/context.js +1 -1
package/dist/errors.d.ts +5 -5
package/dist/errors.js +21 -24
package/dist/export.d.ts +1 -1
package/dist/export.js +4 -2
package/dist/index.d.ts +1 -0
package/dist/index.js +7 -1
package/dist/integrations/openai-eval.js +1 -1
package/dist/logger.d.ts +10 -10
package/dist/pagination.d.ts +2 -2
package/dist/regression.d.ts +100 -0
package/dist/regression.js +44 -0
package/dist/snapshot.d.ts +3 -3
package/dist/streaming.d.ts +4 -4
package/dist/testing.d.ts +1 -1
package/dist/types.d.ts +33 -33
package/dist/version.d.ts +1 -1
package/dist/version.js +1 -1
package/dist/workflows.d.ts +29 -18
package/package.json +7 -3

package/dist/client.d.ts CHANGED Viewed

@@ -111,7 +111,7 @@ declare class TraceAPI {
      * });
      * ```
      */
-    create<TMetadata = Record<string, any>>(params: CreateTraceParams<TMetadata>): Promise<Trace<TMetadata>>;
+    create<TMetadata = Record<string, unknown>>(params: CreateTraceParams<TMetadata>): Promise<Trace<TMetadata>>;
     /**
      * List traces with optional filtering
      */
@@ -138,7 +138,7 @@ declare class TraceAPI {
      * });
      * ```
      */
-    update<TMetadata = Record<string, any>>(id: number, params: UpdateTraceParams<TMetadata>): Promise<Trace<TMetadata>>;
+    update<TMetadata = Record<string, unknown>>(id: number, params: UpdateTraceParams<TMetadata>): Promise<Trace<TMetadata>>;
     /**
      * Create a span for a trace
      */
@@ -208,7 +208,7 @@ declare class LLMJudgeAPI {
      */
     evaluate(params: RunLLMJudgeParams): Promise<{
         result: LLMJudgeResult;
-        config: any;
+        config: unknown;
     }>;
     /**
      * Create an LLM judge configuration

package/dist/client.js CHANGED Viewed

@@ -94,11 +94,12 @@ class AIEvalClient {
                             results.push({ id: req.id, status: 200, data });
                         }
                         catch (err) {
+                            const errorObj = err;
                             results.push({
                                 id: req.id,
-                                status: err?.statusCode || 500,
+                                status: errorObj?.statusCode || 500,
                                 data: null,
-                                error: err?.message || "Unknown error",
+                                error: errorObj?.message || "Unknown error",
                             });
                         }
                     })();

package/dist/client.request.test.d.ts ADDED Viewed

	@@ -0,0 +1 @@
1	+ export {};

package/dist/client.request.test.js ADDED Viewed

@@ -0,0 +1,157 @@
+"use strict";
+var __createBinding = (this && this.__createBinding) || (Object.create ? (function(o, m, k, k2) {
+    if (k2 === undefined) k2 = k;
+    var desc = Object.getOwnPropertyDescriptor(m, k);
+    if (!desc || ("get" in desc ? !m.__esModule : desc.writable || desc.configurable)) {
+      desc = { enumerable: true, get: function() { return m[k]; } };
+    }
+    Object.defineProperty(o, k2, desc);
+}) : (function(o, m, k, k2) {
+    if (k2 === undefined) k2 = k;
+    o[k2] = m[k];
+}));
+var __setModuleDefault = (this && this.__setModuleDefault) || (Object.create ? (function(o, v) {
+    Object.defineProperty(o, "default", { enumerable: true, value: v });
+}) : function(o, v) {
+    o["default"] = v;
+});
+var __importStar = (this && this.__importStar) || (function () {
+    var ownKeys = function(o) {
+        ownKeys = Object.getOwnPropertyNames || function (o) {
+            var ar = [];
+            for (var k in o) if (Object.prototype.hasOwnProperty.call(o, k)) ar[ar.length] = k;
+            return ar;
+        };
+        return ownKeys(o);
+    };
+    return function (mod) {
+        if (mod && mod.__esModule) return mod;
+        var result = {};
+        if (mod != null) for (var k = ownKeys(mod), i = 0; i < k.length; i++) if (k[i] !== "default") __createBinding(result, mod, k[i]);
+        __setModuleDefault(result, mod);
+        return result;
+    };
+})();
+Object.defineProperty(exports, "__esModule", { value: true });
+const vitest_1 = require("vitest");
+const client_1 = require("./client");
+const errorsModule = __importStar(require("./errors"));
+vitest_1.vi.mock("./cache", () => {
+    const cacheTracker = { invalidatedPatterns: [] };
+    const shouldCache = vitest_1.vi.fn().mockReturnValue(true);
+    const getTTL = vitest_1.vi.fn().mockReturnValue(1000);
+    const makeKey = (method, url, params) => `${method}:${url}:${JSON.stringify(params ?? null)}`;
+    return {
+        __esModule: true,
+        shouldCache,
+        getTTL,
+        cacheTracker,
+        RequestCache: class RequestCache {
+            constructor() {
+                this.store = new Map();
+            }
+            get(method, url, params) {
+                const key = makeKey(method, url, params);
+                return this.store.get(key) ?? null;
+            }
+            set(method, url, data, _ttl, params) {
+                const key = makeKey(method, url, params);
+                this.store.set(key, data);
+            }
+            invalidatePattern(pattern) {
+                cacheTracker.invalidatedPatterns.push(pattern);
+            }
+            invalidate(_method, _url, _params) {
+                // no-op for tests
+            }
+            clear() {
+                this.store.clear();
+            }
+        },
+    };
+});
+const cache_1 = require("./cache");
+(0, vitest_1.describe)("AIEvalClient.request", () => {
+    (0, vitest_1.beforeEach)(() => {
+        process.env.EVALAI_API_KEY = "test";
+        cache_1.shouldCache.mockReset().mockReturnValue(true);
+        cache_1.getTTL.mockReset().mockReturnValue(1000);
+        cache_1.cacheTracker.invalidatedPatterns.length = 0;
+    });
+    (0, vitest_1.it)("caches GET responses and reuses data without re-fetching", async () => {
+        const client = new client_1.AIEvalClient({ apiKey: "test", baseUrl: "http://localhost", timeout: 1000 });
+        const payload = { items: [1, 2, 3] };
+        const fetchMock = vitest_1.vi.fn().mockResolvedValue({
+            ok: true,
+            status: 200,
+            json: async () => payload,
+        });
+        globalThis.fetch = fetchMock;
+        const first = await client.request("/api/traces", { method: "GET" });
+        const second = await client.request("/api/traces", { method: "GET" });
+        (0, vitest_1.expect)(first).toEqual(payload);
+        (0, vitest_1.expect)(second).toEqual(payload);
+        (0, vitest_1.expect)(fetchMock).toHaveBeenCalledTimes(1);
+    });
+    (0, vitest_1.it)("propagates non-ok responses as SDK errors", async () => {
+        const client = new client_1.AIEvalClient({ apiKey: "test", baseUrl: "http://localhost" });
+        const fetchMock = vitest_1.vi.fn().mockResolvedValue({
+            ok: false,
+            status: 429,
+            json: async () => ({ error: { code: "RATE_LIMIT_EXCEEDED" } }),
+        });
+        globalThis.fetch = fetchMock;
+        const createErrorSpy = vitest_1.vi
+            .spyOn(errorsModule, "createErrorFromResponse")
+            .mockReturnValue(new errorsModule.EvalAIError("rate limited", "RATE_LIMIT_EXCEEDED", 429));
+        await (0, vitest_1.expect)(client.request("/api/fail", { method: "GET" })).rejects.toHaveProperty("code", "RATE_LIMIT_EXCEEDED");
+        createErrorSpy.mockRestore();
+    });
+    (0, vitest_1.it)("retries on retryable SDK errors and eventually succeeds", async () => {
+        const client = new client_1.AIEvalClient({ apiKey: "test", baseUrl: "http://localhost", timeout: 1000 });
+        vitest_1.vi.spyOn(client, "calculateBackoff").mockReturnValue(0);
+        const failureResponse = {
+            ok: false,
+            status: 429,
+            json: async () => ({ error: { code: "RATE_LIMIT_EXCEEDED" } }),
+        };
+        const successResponse = {
+            ok: true,
+            status: 200,
+            json: async () => ({ ok: true }),
+        };
+        const createErrorSpy = vitest_1.vi
+            .spyOn(errorsModule, "createErrorFromResponse")
+            .mockReturnValue(new errorsModule.EvalAIError("rate limited", "RATE_LIMIT_EXCEEDED", 429));
+        const fetchMock = vitest_1.vi
+            .fn()
+            .mockResolvedValueOnce(failureResponse)
+            .mockResolvedValueOnce(successResponse);
+        globalThis.fetch = fetchMock;
+        const result = await client.request("/api/retry", { method: "GET" });
+        (0, vitest_1.expect)(result).toEqual({ ok: true });
+        (0, vitest_1.expect)(fetchMock).toHaveBeenCalledTimes(2);
+        createErrorSpy.mockRestore();
+    });
+    (0, vitest_1.it)("throws a TIMEOUT SDK error when fetch aborts", async () => {
+        const client = new client_1.AIEvalClient({ apiKey: "test", baseUrl: "http://localhost", timeout: 1000 });
+        const abortError = Object.assign(new Error("aborted"), { name: "AbortError" });
+        const fetchMock = vitest_1.vi.fn().mockRejectedValue(abortError);
+        globalThis.fetch = fetchMock;
+        await (0, vitest_1.expect)(client.request("/api/timeout", { method: "GET" })).rejects.toMatchObject({
+            code: "TIMEOUT",
+        });
+    });
+    (0, vitest_1.it)("invalidates related cache entries for mutation requests", async () => {
+        const client = new client_1.AIEvalClient({ apiKey: "test", baseUrl: "http://localhost", timeout: 1000 });
+        cache_1.shouldCache.mockReturnValue(false);
+        const fetchMock = vitest_1.vi.fn().mockResolvedValue({
+            ok: true,
+            status: 201,
+            json: async () => ({ result: "ok" }),
+        });
+        globalThis.fetch = fetchMock;
+        await client.request("/api/evaluations", { method: "POST", body: JSON.stringify({}) });
+        (0, vitest_1.expect)(cache_1.cacheTracker.invalidatedPatterns).toContain("evaluations");
+    });
+});

package/dist/context.d.ts CHANGED Viewed

@@ -22,7 +22,7 @@
  * Context metadata that will be automatically injected
  */
 export interface ContextMetadata {
-    [key: string]: any;
+    [key: string]: unknown;
 }
 /**
  * Context manager for automatic metadata propagation
@@ -75,7 +75,7 @@ export declare class EvalContext {
  */
 export declare function createContext(metadata: ContextMetadata): EvalContext;
 /**
- * Get the current context metadata (if any)
+ * Get the current context metadata (if unknown)
  *
  * @example
  * ```typescript
@@ -98,7 +98,7 @@ export declare function getCurrentContext(): ContextMetadata | undefined;
  * };
  * ```
  */
-export declare function mergeWithContext(metadata?: Record<string, any>): Record<string, any>;
+export declare function mergeWithContext(metadata?: Record<string, unknown>): Record<string, unknown>;
 /**
  * Run with nested context (merges parent context)
  *
@@ -131,4 +131,4 @@ export declare function withContextSync<T>(metadata: ContextMetadata, fn: () =>
  * }
  * ```
  */
-export declare function WithContext(metadata: ContextMetadata): (_target: any, _propertyKey: string, descriptor: PropertyDescriptor) => PropertyDescriptor;
+export declare function WithContext(metadata: ContextMetadata): (_target: unknown, _propertyKey: string, descriptor: PropertyDescriptor) => PropertyDescriptor;

package/dist/context.js CHANGED Viewed

@@ -131,7 +131,7 @@ function createContext(metadata) {
     return new EvalContext(metadata);
 }
 /**
- * Get the current context metadata (if any)
+ * Get the current context metadata (if unknown)
  *
  * @example
  * ```typescript

package/dist/errors.d.ts CHANGED Viewed

@@ -42,14 +42,14 @@ export declare class EvalAIError extends Error {
     /** Whether this error is retryable */
     retryable: boolean;
     /** Additional error details from the API */
-    details?: any;
+    details?: unknown;
     /** When to retry (for rate limit errors) in seconds */
     retryAfter?: number;
     /** When the limit resets (for feature limit errors) */
     resetAt?: Date;
     /** Request ID from API (for correlation/debugging) */
     requestId?: string;
-    constructor(message: string, code: string, statusCode: number, details?: any);
+    constructor(message: string, code: string, statusCode: number, details?: unknown);
     /**
      * Get formatted error message with solutions
      */
@@ -61,12 +61,12 @@ export declare class EvalAIError extends Error {
     /**
      * Convert to JSON for logging
      */
-    toJSON(): Record<string, any>;
+    toJSON(): Record<string, unknown>;
 }
 /**
  * Create an error from an HTTP response
  */
-export declare function createErrorFromResponse(response: Response, data: any): EvalAIError;
+export declare function createErrorFromResponse(response: Response, data: unknown): EvalAIError;
 export declare class RateLimitError extends EvalAIError {
     constructor(message: string, retryAfter?: number);
 }
@@ -74,7 +74,7 @@ export declare class AuthenticationError extends EvalAIError {
     constructor(message?: string);
 }
 export declare class ValidationError extends EvalAIError {
-    constructor(message?: string, details?: any);
+    constructor(message?: string, details?: unknown);
 }
 export declare class NetworkError extends EvalAIError {
     constructor(message?: string);

package/dist/errors.js CHANGED Viewed

@@ -160,27 +160,21 @@ class EvalAIError extends Error {
         this.code = code;
         this.statusCode = statusCode;
         this.details = details;
-        // Get documentation and solutions
-        const errorDoc = ERROR_DOCS[code];
-        if (errorDoc) {
-            this.documentation = errorDoc.documentation;
-            this.solutions = errorDoc.solutions;
-            this.retryable = errorDoc.retryable;
-        }
-        else {
-            this.documentation = "https://docs.ai-eval-platform.com/errors";
-            this.solutions = ["Check the API documentation for more information"];
-            this.retryable = false;
-        }
+        // Initialize required properties from ERROR_DOCS
+        const doc = ERROR_DOCS[code];
+        this.documentation = doc?.documentation ?? `https://docs.ai-eval-platform.com/errors/${code}`;
+        this.solutions = doc?.solutions ?? ["Check the error details for more information"];
+        this.retryable = doc?.retryable ?? false;
         // Extract retry-after for rate limits
-        if (code === "RATE_LIMIT_EXCEEDED" && details?.retryAfter) {
-            this.retryAfter = details.retryAfter;
+        const errorDetails = details;
+        if (code === "RATE_LIMIT_EXCEEDED" && errorDetails?.retryAfter) {
+            this.retryAfter = errorDetails.retryAfter;
         }
         // Extract reset time for feature limits
-        if (code === "FEATURE_LIMIT_REACHED" && details?.resetAt) {
-            this.resetAt = new Date(details.resetAt);
+        if (code === "FEATURE_LIMIT_REACHED" && errorDetails?.resetAt) {
+            this.resetAt = new Date(errorDetails.resetAt);
         }
-        this.requestId = details?.error?.requestId ?? details?.requestId;
+        this.requestId = errorDetails?.error?.requestId ?? errorDetails?.requestId;
         // Ensure proper prototype chain
         Object.setPrototypeOf(this, EvalAIError.prototype);
     }
@@ -234,14 +228,17 @@ exports.SDKError = EvalAIError;
  */
 function createErrorFromResponse(response, data) {
     const status = response.status;
-    const errObj = data?.error && typeof data.error === "object" ? data.error : data;
-    let code = errObj?.code ?? data?.code ?? "UNKNOWN_ERROR";
-    const message = typeof data?.error === "string"
-        ? data.error
-        : (errObj?.message ?? data?.message ?? response.statusText);
-    const requestId = errObj?.requestId ?? data?.requestId ?? response.headers.get("x-request-id") ?? undefined;
+    const errorData = data;
+    const errObj = errorData?.error && typeof errorData.error === "object"
+        ? errorData.error
+        : errorData;
+    let code = errObj?.code ?? errorData?.code ?? "UNKNOWN_ERROR";
+    const message = typeof errorData?.error === "string"
+        ? errorData.error
+        : (errObj?.message ?? errorData?.message ?? response.statusText);
+    const requestId = errObj?.requestId ?? errorData?.requestId ?? response.headers.get("x-request-id") ?? undefined;
     // Map HTTP status to error codes when code not in response
-    if (!errObj?.code && !data?.code) {
+    if (!errObj?.code && !errorData?.code) {
         if (status === 401)
             code = "UNAUTHORIZED";
         else if (status === 403)

package/dist/export.d.ts CHANGED Viewed

@@ -181,7 +181,7 @@ export declare function importFromFile(client: AIEvalClient, filePath: string, o
  * });
  * ```
  */
-export declare function importFromLangSmith(client: AIEvalClient, langsmithData: any, options: ImportOptions): Promise<ImportResult>;
+export declare function importFromLangSmith(client: AIEvalClient, langsmithData: unknown, options: ImportOptions): Promise<ImportResult>;
 /**
  * Convert export data to CSV format
  *

package/dist/export.js CHANGED Viewed

@@ -292,8 +292,10 @@ async function importFromLangSmith(client, langsmithData, options) {
         traces: [],
     };
     // Transform runs to traces
-    if (langsmithData.runs && Array.isArray(langsmithData.runs)) {
-        transformedData.traces = langsmithData.runs.map((run) => ({
+    const lsData = langsmithData;
+    if (lsData.runs && Array.isArray(lsData.runs)) {
+        transformedData.traces = lsData.runs.map((run) => ({
+            id: run.id || 0,
             name: run.name || "Imported Trace",
             traceId: run.id || `langsmith-${Date.now()}-${Math.random()}`,
             organizationId: options.organizationId,

package/dist/index.d.ts CHANGED Viewed

@@ -33,5 +33,6 @@ export { batchProcess, batchRead, RateLimiter, streamEvaluation } from "./stream
 export type { Annotation, AnnotationItem, AnnotationTask, APIKey, APIKeyUsage, APIKeyWithSecret, BatchOptions, ClientConfig as AIEvalConfig, CreateAnnotationItemParams, CreateAnnotationParams, CreateAnnotationTaskParams, CreateAPIKeyParams, CreateLLMJudgeConfigParams, CreateWebhookParams, Evaluation as EvaluationData, ExportOptions, GenericMetadata as AnnotationData, GetLLMJudgeAlignmentParams, GetUsageParams, ImportOptions, ListAnnotationItemsParams, ListAnnotationsParams, ListAnnotationTasksParams, ListAPIKeysParams, ListLLMJudgeConfigsParams, ListLLMJudgeResultsParams, ListWebhookDeliveriesParams, ListWebhooksParams, LLMJudgeAlignment, LLMJudgeConfig, LLMJudgeResult as LLMJudgeData, Organization, RetryConfig, SnapshotData, Span as SpanData, StreamOptions, TestCase, TestResult, Trace as TraceData, TracedResponse, UpdateAPIKeyParams, UpdateWebhookParams, UsageStats, UsageSummary, Webhook, WebhookDelivery, } from "./types";
 export { EvaluationTemplates, type EvaluationTemplateType, type FeatureUsage, type OrganizationLimits, } from "./types";
 export { type AgentHandoff, type AgentSpanContext, type CostCategory, type CostRecord, createWorkflowTracer, type DecisionAlternative, type DecisionType, type HandoffType, type LLMProvider, type RecordCostParams, type RecordDecisionParams, traceAutoGen, traceCrewAI, traceLangChainAgent, traceWorkflowStep, type WorkflowContext, type WorkflowDefinition, type WorkflowEdge, type WorkflowNode, type WorkflowStatus, WorkflowTracer, type WorkflowTracerOptions, } from "./workflows";
+export { ARTIFACTS, type Baseline, type BaselineTolerance, GATE_CATEGORY, GATE_EXIT, type GateCategory, type GateExitCode, type RegressionDelta, type RegressionReport, REPORT_SCHEMA_VERSION, } from "./regression";
 import { AIEvalClient } from "./client";
 export default AIEvalClient;

package/dist/index.js CHANGED Viewed

@@ -9,7 +9,7 @@
  */
 Object.defineProperty(exports, "__esModule", { value: true });
 exports.extendExpectWithToPassGate = exports.Logger = exports.openAIChatEval = exports.traceOpenAI = exports.traceAnthropic = exports.runCheck = exports.parseArgs = exports.EXIT = exports.RequestCache = exports.CacheTTL = exports.RequestBatcher = exports.importData = exports.exportData = exports.compareSnapshots = exports.saveSnapshot = exports.compareWithSnapshot = exports.snapshot = exports.TestSuite = exports.createTestSuite = exports.ContextManager = exports.withContext = exports.getContext = exports.createContext = exports.withinRange = exports.similarTo = exports.respondedWithinTime = exports.notContainsPII = exports.matchesSchema = exports.matchesPattern = exports.isValidURL = exports.isValidEmail = exports.hasValidCodeSyntax = exports.hasSentiment = exports.hasReadabilityScore = exports.hasNoToxicity = exports.hasNoHallucinations = exports.hasLength = exports.hasFactualAccuracy = exports.followsInstructions = exports.expect = exports.containsLanguage = exports.containsKeywords = exports.containsJSON = exports.containsAllRequiredFields = exports.NetworkError = exports.ValidationError = exports.AuthenticationError = exports.RateLimitError = exports.EvalAIError = exports.AIEvalClient = void 0;
-exports.WorkflowTracer = exports.traceWorkflowStep = exports.traceLangChainAgent = exports.traceCrewAI = exports.traceAutoGen = exports.createWorkflowTracer = exports.EvaluationTemplates = exports.streamEvaluation = exports.RateLimiter = exports.batchRead = exports.batchProcess = exports.PaginatedIterator = exports.encodeCursor = exports.decodeCursor = exports.createPaginatedIterator = exports.autoPaginate = void 0;
+exports.REPORT_SCHEMA_VERSION = exports.GATE_EXIT = exports.GATE_CATEGORY = exports.ARTIFACTS = exports.WorkflowTracer = exports.traceWorkflowStep = exports.traceLangChainAgent = exports.traceCrewAI = exports.traceAutoGen = exports.createWorkflowTracer = exports.EvaluationTemplates = exports.streamEvaluation = exports.RateLimiter = exports.batchRead = exports.batchProcess = exports.PaginatedIterator = exports.encodeCursor = exports.decodeCursor = exports.createPaginatedIterator = exports.autoPaginate = void 0;
 // Main SDK exports
 var client_1 = require("./client");
 Object.defineProperty(exports, "AIEvalClient", { enumerable: true, get: function () { return client_1.AIEvalClient; } });
@@ -117,6 +117,12 @@ Object.defineProperty(exports, "traceCrewAI", { enumerable: true, get: function
 Object.defineProperty(exports, "traceLangChainAgent", { enumerable: true, get: function () { return workflows_1.traceLangChainAgent; } });
 Object.defineProperty(exports, "traceWorkflowStep", { enumerable: true, get: function () { return workflows_1.traceWorkflowStep; } });
 Object.defineProperty(exports, "WorkflowTracer", { enumerable: true, get: function () { return workflows_1.WorkflowTracer; } });
+// Regression gate constants & types (v1.6.0)
+var regression_1 = require("./regression");
+Object.defineProperty(exports, "ARTIFACTS", { enumerable: true, get: function () { return regression_1.ARTIFACTS; } });
+Object.defineProperty(exports, "GATE_CATEGORY", { enumerable: true, get: function () { return regression_1.GATE_CATEGORY; } });
+Object.defineProperty(exports, "GATE_EXIT", { enumerable: true, get: function () { return regression_1.GATE_EXIT; } });
+Object.defineProperty(exports, "REPORT_SCHEMA_VERSION", { enumerable: true, get: function () { return regression_1.REPORT_SCHEMA_VERSION; } });
 // Default export for convenience
 const client_2 = require("./client");
 exports.default = client_2.AIEvalClient;

package/dist/integrations/openai-eval.js CHANGED Viewed

@@ -141,7 +141,7 @@ async function openAIChatEval(options) {
                 for (let i = 0; i < result.results.length; i++) {
                     const tcId = cases[i]?.testCaseId;
                     if (tcId == null) {
-                        console.log("reportToEvalAI: All cases must have testCaseId when any has it.");
+                        console.log("reportToEvalAI: All cases must have testCaseId when unknown has it.");
                         return evalResult;
                     }
                     importResults.push({

package/dist/logger.d.ts CHANGED Viewed

@@ -29,7 +29,7 @@ export interface LogEntry {
     level: LogLevel;
     message: string;
     timestamp: string;
-    data?: any;
+    data?: unknown;
     prefix?: string;
 }
 /**
@@ -41,31 +41,31 @@ export declare class Logger {
     /**
      * Log a trace message
      */
-    trace(message: string, data?: any): void;
+    trace(message: string, data?: unknown): void;
     /**
      * Log a debug message
      */
-    debug(message: string, data?: any): void;
+    debug(message: string, data?: unknown): void;
     /**
      * Log an info message
      */
-    info(message: string, data?: any): void;
+    info(message: string, data?: unknown): void;
     /**
      * Log a warning message
      */
-    warn(message: string, data?: any): void;
+    warn(message: string, data?: unknown): void;
     /**
      * Log an error message
      */
-    error(message: string, data?: any): void;
+    error(message: string, data?: unknown): void;
     /**
      * Log HTTP request
      */
-    logRequest(method: string, url: string, data?: any): void;
+    logRequest(method: string, url: string, data?: unknown): void;
     /**
      * Log HTTP response
      */
-    logResponse(method: string, url: string, status: number, duration: number, data?: any): void;
+    logResponse(method: string, url: string, status: number, duration: number, data?: unknown): void;
     /**
      * Create child logger with prefix
      */
@@ -112,7 +112,7 @@ export declare class RequestLogger {
         method: string;
         url: string;
         headers?: Record<string, string>;
-        body?: any;
+        body?: unknown;
     }): void;
     /**
      * Log response after receiving
@@ -123,6 +123,6 @@ export declare class RequestLogger {
         status: number;
         duration: number;
         headers?: Record<string, string>;
-        body?: any;
+        body?: unknown;
     }): void;
 }

package/dist/pagination.d.ts CHANGED Viewed

@@ -56,11 +56,11 @@ export declare function autoPaginate<T>(fetchFn: (offset: number, limit: number)
 /**
  * Encode cursor for pagination (base64)
  */
-export declare function encodeCursor(data: any): string;
+export declare function encodeCursor(data: unknown): string;
 /**
  * Decode cursor from base64
  */
-export declare function decodeCursor(cursor: string): any;
+export declare function decodeCursor(cursor: string): unknown;
 /**
  * Create pagination metadata from response
  */

package/dist/regression.d.ts ADDED Viewed

@@ -0,0 +1,100 @@
+/**
+ * Regression gate constants and types.
+ *
+ * These mirror the contracts defined in scripts/regression-gate.ts
+ * and evals/schemas/regression-report.schema.json so that SDK consumers
+ * can programmatically inspect gate results without parsing strings.
+ *
+ * @packageDocumentation
+ */
+/** Exit codes emitted by `evalai gate` / `scripts/regression-gate.ts`. */
+export declare const GATE_EXIT: {
+    /** Gate passed — no regressions detected */
+    readonly PASS: 0;
+    /** One or more regression thresholds exceeded */
+    readonly REGRESSION: 1;
+    /** Infrastructure error (baseline missing, summary missing, etc.) */
+    readonly INFRA_ERROR: 2;
+    /** Confidence tests failed (test suite red) */
+    readonly CONFIDENCE_FAILED: 3;
+    /** Confidence summary file missing (test infra crashed) */
+    readonly CONFIDENCE_MISSING: 4;
+};
+export type GateExitCode = (typeof GATE_EXIT)[keyof typeof GATE_EXIT];
+/** Categories written to regression-report.json `category` field. */
+export declare const GATE_CATEGORY: {
+    readonly PASS: "pass";
+    readonly REGRESSION: "regression";
+    readonly INFRA_ERROR: "infra_error";
+};
+export type GateCategory = (typeof GATE_CATEGORY)[keyof typeof GATE_CATEGORY];
+/** Current schema version for regression-report.json. */
+export declare const REPORT_SCHEMA_VERSION = 1;
+export interface RegressionDelta {
+    metric: string;
+    baseline: number | string;
+    current: number | string;
+    delta: string;
+    status: "pass" | "fail";
+}
+export interface RegressionReport {
+    schemaVersion: number;
+    timestamp: string;
+    exitCode: GateExitCode;
+    category: GateCategory;
+    passed: boolean;
+    failures: string[];
+    deltas: RegressionDelta[];
+}
+export interface BaselineTolerance {
+    scoreDrop: number;
+    passRateDrop: number;
+    maxLatencyIncreaseMs: number;
+    maxCostIncreaseUsd: number;
+}
+export interface Baseline {
+    schemaVersion: number;
+    description: string;
+    generatedAt: string;
+    generatedBy: string;
+    commitSha: string;
+    updatedAt: string;
+    updatedBy: string;
+    tolerance: BaselineTolerance;
+    goldenEval: {
+        score: number;
+        passRate: number;
+        totalCases: number;
+        passedCases: number;
+    };
+    qualityScore: {
+        overall: number;
+        grade: string;
+        accuracy: number;
+        safety: number;
+        latency: number;
+        cost: number;
+        consistency: number;
+    };
+    confidenceTests: {
+        unitPassed: boolean;
+        unitTotal: number;
+        dbPassed: boolean;
+        dbTotal: number;
+    };
+    productMetrics: {
+        p95ApiLatencyMs?: number;
+        goldenCostUsd?: number;
+    };
+    qualityMetrics?: {
+        unitLaneDurationMs?: number;
+        dbLaneDurationMs?: number;
+    };
+}
+/** Well-known artifact paths relative to project root. */
+export declare const ARTIFACTS: {
+    readonly BASELINE: "evals/baseline.json";
+    readonly REGRESSION_REPORT: "evals/regression-report.json";
+    readonly CONFIDENCE_SUMMARY: "evals/confidence-summary.json";
+    readonly LATENCY_BENCHMARK: "evals/latency-benchmark.json";
+};

package/dist/regression.js ADDED Viewed

@@ -0,0 +1,44 @@
+"use strict";
+/**
+ * Regression gate constants and types.
+ *
+ * These mirror the contracts defined in scripts/regression-gate.ts
+ * and evals/schemas/regression-report.schema.json so that SDK consumers
+ * can programmatically inspect gate results without parsing strings.
+ *
+ * @packageDocumentation
+ */
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.ARTIFACTS = exports.REPORT_SCHEMA_VERSION = exports.GATE_CATEGORY = exports.GATE_EXIT = void 0;
+// ── Exit codes ──
+/** Exit codes emitted by `evalai gate` / `scripts/regression-gate.ts`. */
+exports.GATE_EXIT = {
+    /** Gate passed — no regressions detected */
+    PASS: 0,
+    /** One or more regression thresholds exceeded */
+    REGRESSION: 1,
+    /** Infrastructure error (baseline missing, summary missing, etc.) */
+    INFRA_ERROR: 2,
+    /** Confidence tests failed (test suite red) */
+    CONFIDENCE_FAILED: 3,
+    /** Confidence summary file missing (test infra crashed) */
+    CONFIDENCE_MISSING: 4,
+};
+// ── Report categories ──
+/** Categories written to regression-report.json `category` field. */
+exports.GATE_CATEGORY = {
+    PASS: "pass",
+    REGRESSION: "regression",
+    INFRA_ERROR: "infra_error",
+};
+// ── Schema version ──
+/** Current schema version for regression-report.json. */
+exports.REPORT_SCHEMA_VERSION = 1;
+// ── Artifact paths ──
+/** Well-known artifact paths relative to project root. */
+exports.ARTIFACTS = {
+    BASELINE: "evals/baseline.json",
+    REGRESSION_REPORT: "evals/regression-report.json",
+    CONFIDENCE_SUMMARY: "evals/confidence-summary.json",
+    LATENCY_BENCHMARK: "evals/latency-benchmark.json",
+};