npm - peerbench - Versions diffs - 0.0.7 → 0.0.8 - Mend

peerbench 0.0.7 → 0.0.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (89) hide show

package/dist/aggregators/abstract.d.ts +10 -0
package/dist/aggregators/index.d.ts +2 -67
package/dist/aggregators/llm/avg.d.ts +26 -0
package/dist/benchmarks/examples/echo-basic/index.d.ts +4 -0
package/dist/benchmarks/examples/echo-basic/runner.d.ts +273 -0
package/dist/benchmarks/examples/echo-basic/schema-sets/echo.v1.d.ts +241 -0
package/dist/benchmarks/examples/echo-basic/storages/json.d.ts +14 -0
package/dist/benchmarks/examples/echo-basic/storages/text.d.ts +24 -0
package/dist/benchmarks/examples/exact-match-scorer/index.d.ts +4 -0
package/dist/benchmarks/examples/exact-match-scorer/runner.d.ts +428 -0
package/dist/benchmarks/examples/exact-match-scorer/schema-sets/exact-match.v1.d.ts +287 -0
package/dist/benchmarks/examples/exact-match-scorer/scorer.d.ts +30 -0
package/dist/benchmarks/examples/exact-match-scorer/storages/json.d.ts +8 -0
package/dist/benchmarks/examples/text-transform/index.d.ts +4 -0
package/dist/benchmarks/examples/text-transform/runner.d.ts +524 -0
package/dist/benchmarks/examples/text-transform/schema-sets/echo.v1.d.ts +211 -0
package/dist/benchmarks/examples/text-transform/schema-sets/namespace.d.ts +1 -0
package/dist/benchmarks/examples/text-transform/schema-sets/reverse.v1.d.ts +216 -0
package/dist/benchmarks/examples/text-transform/storages/json.d.ts +9 -0
package/dist/benchmarks/index.d.ts +1 -1667
package/dist/benchmarks/index.js +16 -16
package/dist/benchmarks/peerbench/index.d.ts +5 -0
package/dist/benchmarks/peerbench/runner.d.ts +754 -0
package/dist/benchmarks/peerbench/schema-sets/mcq.v1.d.ts +261 -0
package/dist/benchmarks/peerbench/schema-sets/multi-turn.v1.d.ts +351 -0
package/dist/benchmarks/peerbench/schema-sets/qa.v1.d.ts +256 -0
package/dist/benchmarks/peerbench/storages/json.d.ts +10 -0
package/dist/{chunk-ZXTQJFGL.js → chunk-Q6GSOHOP.js} +4 -4
package/dist/constants.d.ts +4 -0
package/dist/errors/index.d.ts +2 -0
package/dist/errors/peerbench.d.ts +6 -0
package/dist/errors/polyfill.d.ts +1 -0
package/dist/examples/basic.d.ts +1 -0
package/dist/helpers/define-runner.d.ts +45 -0
package/dist/helpers/index.d.ts +1 -0
package/dist/index.d.ts +6 -101
package/dist/index.js +3 -3
package/dist/providers/abstract/llm.d.ts +20 -0
package/dist/{provider-DnEBdl1n.d.ts → providers/abstract/provider.d.ts} +2 -4
package/dist/providers/example/echo.d.ts +12 -0
package/dist/providers/example/restapi.d.ts +37 -0
package/dist/providers/index.d.ts +5 -96
package/dist/providers/mastra.d.ts +40 -0
package/dist/providers/openai.d.ts +29 -0
package/dist/providers/openrouter.d.ts +27 -0
package/dist/schemas/extensions/index.d.ts +18 -22
package/dist/schemas/extensions/response/llm.d.ts +14 -0
package/dist/schemas/extensions/score/llm-as-a-judge-scorer.d.ts +15 -0
package/dist/schemas/id.d.ts +2 -0
package/dist/schemas/index.d.ts +4 -200
package/dist/schemas/llm/index.d.ts +2 -116
package/dist/schemas/llm/index.js +2 -2
package/dist/schemas/llm/simple-system-prompt.d.ts +51 -0
package/dist/schemas/llm/system-prompt.d.ts +59 -0
package/dist/schemas/response.d.ts +63 -0
package/dist/schemas/schema-definer.d.ts +47 -0
package/dist/schemas/score.d.ts +73 -0
package/dist/schemas/test-case.d.ts +57 -0
package/dist/{abstract-BdgLjkNC.d.ts → scorers/abstract.d.ts} +2 -4
package/dist/scorers/index.d.ts +4 -68
package/dist/scorers/llm-judge.d.ts +55 -0
package/dist/scorers/mcq.d.ts +19 -0
package/dist/scorers/mcq.test.d.ts +1 -0
package/dist/scorers/regex.d.ts +58 -0
package/dist/scorers/regex.test.d.ts +1 -0
package/dist/storages/abstract.d.ts +7 -0
package/dist/storages/examples/http.d.ts +1 -0
package/dist/storages/examples/sqlite.d.ts +1 -0
package/dist/storages/file.d.ts +43 -0
package/dist/storages/http.d.ts +22 -0
package/dist/storages/index.d.ts +5 -69
package/dist/storages/json-file.d.ts +21 -0
package/dist/storages/sqlite.d.ts +41 -0
package/dist/types/index.d.ts +17 -0
package/dist/types/runner.d.ts +18 -0
package/dist/utilities.d.ts +9 -0
package/dist/utils/id-generator.d.ts +2 -0
package/dist/utils/index.d.ts +5 -0
package/dist/utils/json.d.ts +17 -0
package/dist/utils/llm.d.ts +7 -0
package/dist/{rate-limiter-CSmVIRsM.d.ts → utils/rate-limiter.d.ts} +3 -5
package/dist/utils/sleep.d.ts +1 -0
package/dist/utils/string.d.ts +8 -0
package/package.json +3 -3
package/dist/index-Cn20kPrz.d.ts +0 -27
package/dist/json-file-Bgv9TLcX.d.ts +0 -74
package/dist/llm-8ecJmwKJ.d.ts +0 -23
package/dist/llm-judge-BuF80-5-.d.ts +0 -75
/package/dist/{chunk-ZXTQJFGL.js.map → chunk-Q6GSOHOP.js.map} +0 -0

package/dist/benchmarks/examples/exact-match-scorer/schema-sets/exact-match.v1.d.ts ADDED Viewed

@@ -0,0 +1,287 @@
+import { z } from "zod";
+export declare const ExactMatchNamespace: "example.peerbench.ai";
+export declare const ExactMatchKind: "llm/exact-match";
+export declare const ExactMatchTestCaseSchemaV1: z.ZodObject<Omit<{
+    id: z.ZodString;
+    namespace: z.ZodString;
+    schemaVersion: z.ZodNumber;
+    kind: z.ZodString;
+    metadata: z.ZodOptional<z.ZodRecord<z.ZodString, z.ZodUnknown>>;
+}, "kind" | "namespace" | "schemaVersion"> & {
+    instruction: z.ZodString;
+    input: z.ZodString;
+    expectedOutput: z.ZodString;
+    normalize: z.ZodOptional<z.ZodBoolean>;
+} & {
+    namespace: z.ZodLiteral<"example.peerbench.ai">;
+    kind: z.ZodLiteral<"llm/exact-match.tc">;
+    schemaVersion: z.ZodLiteral<1>;
+}, z.core.$strip> & {
+    new: (input: Omit<{
+        id: string;
+        instruction: string;
+        input: string;
+        expectedOutput: string;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.tc";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        normalize?: boolean | undefined;
+    }, "kind" | "namespace" | "schemaVersion">) => {
+        id: string;
+        instruction: string;
+        input: string;
+        expectedOutput: string;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.tc";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        normalize?: boolean | undefined;
+    };
+    newWithId(input: Omit<{
+        id: string;
+        instruction: string;
+        input: string;
+        expectedOutput: string;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.tc";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        normalize?: boolean | undefined;
+    }, "kind" | "id" | "namespace" | "schemaVersion">, generator: import("../../../../index.js").IdGenerator): Promise<{
+        id: string;
+        instruction: string;
+        input: string;
+        expectedOutput: string;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.tc";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        normalize?: boolean | undefined;
+    }>;
+};
+export type ExactMatchTestCaseV1 = z.infer<typeof ExactMatchTestCaseSchemaV1>;
+export declare const ExactMatchResponseSchemaV1: z.ZodObject<Omit<{
+    id: z.ZodString;
+    namespace: z.ZodString;
+    schemaVersion: z.ZodNumber;
+    kind: z.ZodString;
+    startedAt: z.ZodNumber;
+    completedAt: z.ZodNumber;
+    testCaseId: z.ZodString;
+    metadata: z.ZodOptional<z.ZodRecord<z.ZodString, z.ZodUnknown>>;
+}, "kind" | "namespace" | "schemaVersion"> & {
+    data: z.ZodString;
+    modelSlug: z.ZodString;
+    provider: z.ZodString;
+    systemPromptId: z.ZodOptional<z.ZodString>;
+    inputTokensUsed: z.ZodOptional<z.ZodNumber>;
+    outputTokensUsed: z.ZodOptional<z.ZodNumber>;
+    inputCost: z.ZodOptional<z.ZodString>;
+    outputCost: z.ZodOptional<z.ZodString>;
+} & {
+    namespace: z.ZodLiteral<"example.peerbench.ai">;
+    kind: z.ZodLiteral<"llm/exact-match.rs">;
+    schemaVersion: z.ZodLiteral<1>;
+}, z.core.$strip> & {
+    new: (input: Omit<{
+        startedAt: number;
+        completedAt: number;
+        id: string;
+        testCaseId: string;
+        data: string;
+        modelSlug: string;
+        provider: string;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.rs";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        systemPromptId?: string | undefined;
+        inputTokensUsed?: number | undefined;
+        outputTokensUsed?: number | undefined;
+        inputCost?: string | undefined;
+        outputCost?: string | undefined;
+    }, "kind" | "namespace" | "schemaVersion">) => {
+        startedAt: number;
+        completedAt: number;
+        id: string;
+        testCaseId: string;
+        data: string;
+        modelSlug: string;
+        provider: string;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.rs";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        systemPromptId?: string | undefined;
+        inputTokensUsed?: number | undefined;
+        outputTokensUsed?: number | undefined;
+        inputCost?: string | undefined;
+        outputCost?: string | undefined;
+    };
+    newWithId(input: Omit<{
+        startedAt: number;
+        completedAt: number;
+        id: string;
+        testCaseId: string;
+        data: string;
+        modelSlug: string;
+        provider: string;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.rs";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        systemPromptId?: string | undefined;
+        inputTokensUsed?: number | undefined;
+        outputTokensUsed?: number | undefined;
+        inputCost?: string | undefined;
+        outputCost?: string | undefined;
+    }, "kind" | "id" | "namespace" | "schemaVersion">, generator: import("../../../../index.js").IdGenerator): Promise<{
+        startedAt: number;
+        completedAt: number;
+        id: string;
+        testCaseId: string;
+        data: string;
+        modelSlug: string;
+        provider: string;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.rs";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        systemPromptId?: string | undefined;
+        inputTokensUsed?: number | undefined;
+        outputTokensUsed?: number | undefined;
+        inputCost?: string | undefined;
+        outputCost?: string | undefined;
+    }>;
+};
+export type ExactMatchResponseV1 = z.infer<typeof ExactMatchResponseSchemaV1>;
+export declare const ExactMatchScoreSchemaV1: z.ZodObject<Omit<{
+    id: z.ZodString;
+    namespace: z.ZodString;
+    kind: z.ZodString;
+    schemaVersion: z.ZodNumber;
+    value: z.ZodNumber;
+    responseId: z.ZodString;
+    explanation: z.ZodOptional<z.ZodString>;
+    metadata: z.ZodOptional<z.ZodRecord<z.ZodString, z.ZodUnknown>>;
+    scoringMethod: z.ZodEnum<{
+        readonly ai: "ai";
+        readonly human: "human";
+        readonly algo: "algo";
+    }>;
+}, "kind" | "namespace" | "schemaVersion"> & {
+    match: z.ZodBoolean;
+    normalized: z.ZodOptional<z.ZodObject<{
+        expected: z.ZodString;
+        actual: z.ZodString;
+    }, z.core.$strip>>;
+    scorerAISystemPrompt: z.ZodOptional<z.ZodString>;
+    scorerAISystemPromptId: z.ZodOptional<z.ZodString>;
+    scorerAIProvider: z.ZodOptional<z.ZodString>;
+    scorerAIModelSlug: z.ZodOptional<z.ZodString>;
+    scorerAIInputTokensUsed: z.ZodOptional<z.ZodNumber>;
+    scorerAIOutputTokensUsed: z.ZodOptional<z.ZodNumber>;
+    scorerAIInputCost: z.ZodOptional<z.ZodString>;
+    scorerAIOutputCost: z.ZodOptional<z.ZodString>;
+} & {
+    namespace: z.ZodLiteral<"example.peerbench.ai">;
+    kind: z.ZodLiteral<"llm/exact-match.sc">;
+    schemaVersion: z.ZodLiteral<1>;
+}, z.core.$strip> & {
+    new: (input: Omit<{
+        id: string;
+        value: number;
+        responseId: string;
+        scoringMethod: "ai" | "human" | "algo";
+        match: boolean;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.sc";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        explanation?: string | undefined;
+        normalized?: {
+            expected: string;
+            actual: string;
+        } | undefined;
+        scorerAISystemPrompt?: string | undefined;
+        scorerAISystemPromptId?: string | undefined;
+        scorerAIProvider?: string | undefined;
+        scorerAIModelSlug?: string | undefined;
+        scorerAIInputTokensUsed?: number | undefined;
+        scorerAIOutputTokensUsed?: number | undefined;
+        scorerAIInputCost?: string | undefined;
+        scorerAIOutputCost?: string | undefined;
+    }, "kind" | "namespace" | "schemaVersion">) => {
+        id: string;
+        value: number;
+        responseId: string;
+        scoringMethod: "ai" | "human" | "algo";
+        match: boolean;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.sc";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        explanation?: string | undefined;
+        normalized?: {
+            expected: string;
+            actual: string;
+        } | undefined;
+        scorerAISystemPrompt?: string | undefined;
+        scorerAISystemPromptId?: string | undefined;
+        scorerAIProvider?: string | undefined;
+        scorerAIModelSlug?: string | undefined;
+        scorerAIInputTokensUsed?: number | undefined;
+        scorerAIOutputTokensUsed?: number | undefined;
+        scorerAIInputCost?: string | undefined;
+        scorerAIOutputCost?: string | undefined;
+    };
+    newWithId(input: Omit<{
+        id: string;
+        value: number;
+        responseId: string;
+        scoringMethod: "ai" | "human" | "algo";
+        match: boolean;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.sc";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        explanation?: string | undefined;
+        normalized?: {
+            expected: string;
+            actual: string;
+        } | undefined;
+        scorerAISystemPrompt?: string | undefined;
+        scorerAISystemPromptId?: string | undefined;
+        scorerAIProvider?: string | undefined;
+        scorerAIModelSlug?: string | undefined;
+        scorerAIInputTokensUsed?: number | undefined;
+        scorerAIOutputTokensUsed?: number | undefined;
+        scorerAIInputCost?: string | undefined;
+        scorerAIOutputCost?: string | undefined;
+    }, "kind" | "id" | "namespace" | "schemaVersion">, generator: import("../../../../index.js").IdGenerator): Promise<{
+        id: string;
+        value: number;
+        responseId: string;
+        scoringMethod: "ai" | "human" | "algo";
+        match: boolean;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.sc";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        explanation?: string | undefined;
+        normalized?: {
+            expected: string;
+            actual: string;
+        } | undefined;
+        scorerAISystemPrompt?: string | undefined;
+        scorerAISystemPromptId?: string | undefined;
+        scorerAIProvider?: string | undefined;
+        scorerAIModelSlug?: string | undefined;
+        scorerAIInputTokensUsed?: number | undefined;
+        scorerAIOutputTokensUsed?: number | undefined;
+        scorerAIInputCost?: string | undefined;
+        scorerAIOutputCost?: string | undefined;
+    }>;
+};
+export type ExactMatchScoreV1 = z.infer<typeof ExactMatchScoreSchemaV1>;

package/dist/benchmarks/examples/exact-match-scorer/scorer.d.ts ADDED Viewed

@@ -0,0 +1,30 @@
+import { AbstractScorer, BaseScorerResult } from "../../../scorers/abstract";
+/**
+ * A "scorer" is the piece that turns the given data into a numeric score
+ * alongside with additional explanation and metadata.
+ *
+ * A runner can do scoring inline, but having a dedicated scorer is nice when:
+ * - you want to reuse the same scoring logic across multiple runners/benchmarks
+ * - you want to allow callers to swap scorers easily (e.g. deterministic scorer vs LLM-as-a-judge)
+ * - you want to test scoring in isolation without calling a provider
+ *
+ * Here is an example, simple scorer implementation. It checks exact match (optionally with normalization)
+ * of the given expected and actual values. Score values must be between 0 and 1.
+ */
+export declare class ExactMatchScorer extends AbstractScorer {
+    readonly kind: "example.peerbench.ai/exact-match";
+    score(params: {
+        expected: string;
+        actual: string;
+        normalize?: boolean;
+    }): Promise<BaseScorerResult & {
+        metadata: {
+            match: boolean;
+            normalize: boolean;
+            normalized?: {
+                expected: string;
+                actual: string;
+            };
+        };
+    }>;
+}

package/dist/benchmarks/examples/exact-match-scorer/storages/json.d.ts ADDED Viewed

@@ -0,0 +1,8 @@
+import { JSONFileStorage } from "../../../../storages/json-file";
+import { ExactMatchResponseV1, ExactMatchScoreV1, ExactMatchTestCaseV1 } from "../schema-sets/exact-match.v1";
+export declare class ExactMatchJSONStorage extends JSONFileStorage<ExactMatchTestCaseV1 | ExactMatchResponseV1 | ExactMatchScoreV1> {
+    constructor(config: {
+        path: string;
+        chunkSize?: number;
+    });
+}

package/dist/benchmarks/examples/text-transform/index.d.ts ADDED Viewed

@@ -0,0 +1,4 @@
+export * from "./runner";
+export * from "./schema-sets/echo.v1";
+export * from "./schema-sets/reverse.v1";
+export * from "./storages/json";