npm - peerbench - Versions diffs - 0.0.6 → 0.0.8 - Mend

peerbench 0.0.6 → 0.0.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (95) hide show

package/dist/aggregators/abstract.d.ts +10 -0
package/dist/aggregators/index.d.ts +2 -67
package/dist/aggregators/llm/avg.d.ts +26 -0
package/dist/benchmarks/examples/echo-basic/index.d.ts +4 -0
package/dist/benchmarks/examples/echo-basic/runner.d.ts +273 -0
package/dist/benchmarks/examples/echo-basic/schema-sets/echo.v1.d.ts +241 -0
package/dist/benchmarks/examples/echo-basic/storages/json.d.ts +14 -0
package/dist/benchmarks/examples/echo-basic/storages/text.d.ts +24 -0
package/dist/benchmarks/examples/exact-match-scorer/index.d.ts +4 -0
package/dist/benchmarks/examples/exact-match-scorer/runner.d.ts +428 -0
package/dist/benchmarks/examples/exact-match-scorer/schema-sets/exact-match.v1.d.ts +287 -0
package/dist/benchmarks/examples/exact-match-scorer/scorer.d.ts +30 -0
package/dist/benchmarks/examples/exact-match-scorer/storages/json.d.ts +8 -0
package/dist/benchmarks/examples/text-transform/index.d.ts +4 -0
package/dist/benchmarks/examples/text-transform/runner.d.ts +524 -0
package/dist/benchmarks/examples/text-transform/schema-sets/echo.v1.d.ts +211 -0
package/dist/benchmarks/examples/text-transform/schema-sets/namespace.d.ts +1 -0
package/dist/benchmarks/examples/text-transform/schema-sets/reverse.v1.d.ts +216 -0
package/dist/benchmarks/examples/text-transform/storages/json.d.ts +9 -0
package/dist/benchmarks/index.d.ts +1 -1667
package/dist/benchmarks/index.js +4 -4
package/dist/benchmarks/peerbench/index.d.ts +5 -0
package/dist/benchmarks/peerbench/runner.d.ts +754 -0
package/dist/benchmarks/peerbench/schema-sets/mcq.v1.d.ts +261 -0
package/dist/benchmarks/peerbench/schema-sets/multi-turn.v1.d.ts +351 -0
package/dist/benchmarks/peerbench/schema-sets/qa.v1.d.ts +256 -0
package/dist/benchmarks/peerbench/storages/json.d.ts +10 -0
package/dist/{chunk-DNGT4SJC.js → chunk-3JHDJEY3.js} +16 -7
package/dist/chunk-3JHDJEY3.js.map +1 -0
package/dist/{chunk-3JF7SHLC.js → chunk-SMLNDQFX.js} +16 -7
package/dist/chunk-SMLNDQFX.js.map +1 -0
package/dist/constants.d.ts +4 -0
package/dist/errors/index.d.ts +2 -0
package/dist/errors/peerbench.d.ts +6 -0
package/dist/errors/polyfill.d.ts +1 -0
package/dist/examples/basic.d.ts +1 -0
package/dist/helpers/define-runner.d.ts +45 -0
package/dist/helpers/index.d.ts +1 -0
package/dist/index.d.ts +6 -101
package/dist/providers/abstract/llm.d.ts +20 -0
package/dist/providers/abstract/provider.d.ts +14 -0
package/dist/providers/example/echo.d.ts +12 -0
package/dist/providers/example/restapi.d.ts +37 -0
package/dist/providers/index.d.ts +5 -84
package/dist/providers/index.js +1 -1
package/dist/providers/mastra.d.ts +40 -0
package/dist/providers/openai.d.ts +29 -0
package/dist/providers/openrouter.d.ts +27 -0
package/dist/schemas/extensions/index.d.ts +18 -22
package/dist/schemas/extensions/response/llm.d.ts +14 -0
package/dist/schemas/extensions/score/llm-as-a-judge-scorer.d.ts +15 -0
package/dist/schemas/id.d.ts +2 -0
package/dist/schemas/index.d.ts +4 -200
package/dist/schemas/llm/index.d.ts +2 -116
package/dist/schemas/llm/simple-system-prompt.d.ts +51 -0
package/dist/schemas/llm/system-prompt.d.ts +59 -0
package/dist/schemas/response.d.ts +63 -0
package/dist/schemas/schema-definer.d.ts +47 -0
package/dist/schemas/score.d.ts +73 -0
package/dist/schemas/test-case.d.ts +57 -0
package/dist/scorers/abstract.d.ts +16 -0
package/dist/scorers/index.d.ts +4 -64
package/dist/scorers/index.js +1 -1
package/dist/scorers/llm-judge.d.ts +55 -0
package/dist/scorers/mcq.d.ts +19 -0
package/dist/scorers/mcq.test.d.ts +1 -0
package/dist/scorers/regex.d.ts +58 -0
package/dist/scorers/regex.test.d.ts +1 -0
package/dist/storages/abstract.d.ts +7 -0
package/dist/storages/examples/http.d.ts +1 -0
package/dist/storages/examples/sqlite.d.ts +1 -0
package/dist/storages/file.d.ts +43 -0
package/dist/storages/http.d.ts +22 -0
package/dist/storages/index.d.ts +5 -69
package/dist/storages/json-file.d.ts +21 -0
package/dist/storages/sqlite.d.ts +41 -0
package/dist/types/index.d.ts +17 -0
package/dist/types/runner.d.ts +18 -0
package/dist/utilities.d.ts +9 -0
package/dist/utils/id-generator.d.ts +2 -0
package/dist/utils/index.d.ts +5 -0
package/dist/utils/json.d.ts +17 -0
package/dist/utils/llm.d.ts +7 -0
package/dist/{rate-limiter-CSmVIRsM.d.ts → utils/rate-limiter.d.ts} +3 -5
package/dist/utils/sleep.d.ts +1 -0
package/dist/utils/string.d.ts +8 -0
package/package.json +3 -3
package/dist/abstract-Dec9Sc5O.d.ts +0 -12
package/dist/chunk-3JF7SHLC.js.map +0 -1
package/dist/chunk-DNGT4SJC.js.map +0 -1
package/dist/index-BAioQhp2.d.ts +0 -27
package/dist/json-file-Bgv9TLcX.d.ts +0 -74
package/dist/llm-BND163ns.d.ts +0 -23
package/dist/llm-judge-BS_oNYUK.d.ts +0 -67
package/dist/provider-BDjGp2y-.d.ts +0 -10

package/dist/benchmarks/examples/exact-match-scorer/runner.d.ts ADDED Viewed

@@ -0,0 +1,428 @@
+import { AbstractLLMProvider } from "../../../providers/index.js";
+import { LLMAsAJudgeScorer } from "../../../scorers/index.js";
+import z from "zod";
+import { ExactMatchScorer } from "./scorer";
+export declare const exactMatchScorerRunner: ((params: {
+    testCase: {
+        id: string;
+        instruction: string;
+        input: string;
+        expectedOutput: string;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.tc";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        normalize?: boolean | undefined;
+    };
+    provider: AbstractLLMProvider;
+    scorer?: LLMAsAJudgeScorer | ExactMatchScorer | undefined;
+    runConfig: {
+        model: string;
+        temperature?: number | undefined;
+        systemPrompt?: {
+            id: string;
+            version: number;
+            content: string;
+            namespace: "peerbench.ai";
+            kind: `${string}/simple.sys-prompt`;
+            schemaVersion: 1;
+            metadata?: Record<string, unknown> | undefined;
+        } | undefined;
+        llmJudgeModel?: string | undefined;
+    };
+    idGenerators?: {
+        response?: import("../../../types").IdGenerator;
+        score?: import("../../../types").IdGenerator;
+    };
+}) => Promise<{
+    response: {
+        startedAt: number;
+        completedAt: number;
+        id: string;
+        testCaseId: string;
+        data: string;
+        modelSlug: string;
+        provider: string;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.rs";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        systemPromptId?: string | undefined;
+        inputTokensUsed?: number | undefined;
+        outputTokensUsed?: number | undefined;
+        inputCost?: string | undefined;
+        outputCost?: string | undefined;
+    };
+    score?: {
+        id: string;
+        value: number;
+        responseId: string;
+        scoringMethod: "ai" | "human" | "algo";
+        match: boolean;
+        namespace: "example.peerbench.ai";
+        kind: "llm/exact-match.sc";
+        schemaVersion: 1;
+        metadata?: Record<string, unknown> | undefined;
+        explanation?: string | undefined;
+        normalized?: {
+            expected: string;
+            actual: string;
+        } | undefined;
+        scorerAISystemPrompt?: string | undefined;
+        scorerAISystemPromptId?: string | undefined;
+        scorerAIProvider?: string | undefined;
+        scorerAIModelSlug?: string | undefined;
+        scorerAIInputTokensUsed?: number | undefined;
+        scorerAIOutputTokensUsed?: number | undefined;
+        scorerAIInputCost?: string | undefined;
+        scorerAIOutputCost?: string | undefined;
+    } | undefined;
+}>) & {
+    config: {
+        runConfigSchema: z.ZodObject<{
+            model: z.ZodString;
+            temperature: z.ZodOptional<z.ZodNumber>;
+            systemPrompt: z.ZodOptional<z.ZodObject<Omit<{
+                id: z.ZodString;
+                namespace: z.ZodString;
+                kind: z.ZodString;
+                schemaVersion: z.ZodNumber;
+                version: z.ZodNumber;
+                metadata: z.ZodOptional<z.ZodRecord<z.ZodString, z.ZodUnknown>>;
+            }, "kind" | "namespace" | "schemaVersion"> & {
+                content: z.ZodString;
+            } & {
+                namespace: z.ZodLiteral<"peerbench.ai">;
+                kind: z.ZodLiteral<`${string}/simple.sys-prompt`>;
+                schemaVersion: z.ZodLiteral<1>;
+            }, z.core.$strip> & {
+                new: (input: Omit<{
+                    id: string;
+                    version: number;
+                    content: string;
+                    namespace: "peerbench.ai";
+                    kind: `${string}/simple.sys-prompt`;
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                }, "kind" | "namespace" | "schemaVersion">) => {
+                    id: string;
+                    version: number;
+                    content: string;
+                    namespace: "peerbench.ai";
+                    kind: `${string}/simple.sys-prompt`;
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                };
+                newWithId(input: Omit<{
+                    id: string;
+                    version: number;
+                    content: string;
+                    namespace: "peerbench.ai";
+                    kind: `${string}/simple.sys-prompt`;
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                }, "kind" | "id" | "namespace" | "schemaVersion">, generator: import("../../../types").IdGenerator): Promise<{
+                    id: string;
+                    version: number;
+                    content: string;
+                    namespace: "peerbench.ai";
+                    kind: `${string}/simple.sys-prompt`;
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                }>;
+            }>;
+            llmJudgeModel: z.ZodOptional<z.ZodString>;
+        }, z.core.$strip>;
+        schemaSets: [{
+            readonly testCase: z.ZodObject<Omit<{
+                id: z.ZodString;
+                namespace: z.ZodString;
+                schemaVersion: z.ZodNumber;
+                kind: z.ZodString;
+                metadata: z.ZodOptional<z.ZodRecord<z.ZodString, z.ZodUnknown>>;
+            }, "kind" | "namespace" | "schemaVersion"> & {
+                instruction: z.ZodString;
+                input: z.ZodString;
+                expectedOutput: z.ZodString;
+                normalize: z.ZodOptional<z.ZodBoolean>;
+            } & {
+                namespace: z.ZodLiteral<"example.peerbench.ai">;
+                kind: z.ZodLiteral<"llm/exact-match.tc">;
+                schemaVersion: z.ZodLiteral<1>;
+            }, z.core.$strip> & {
+                new: (input: Omit<{
+                    id: string;
+                    instruction: string;
+                    input: string;
+                    expectedOutput: string;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.tc";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    normalize?: boolean | undefined;
+                }, "kind" | "namespace" | "schemaVersion">) => {
+                    id: string;
+                    instruction: string;
+                    input: string;
+                    expectedOutput: string;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.tc";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    normalize?: boolean | undefined;
+                };
+                newWithId(input: Omit<{
+                    id: string;
+                    instruction: string;
+                    input: string;
+                    expectedOutput: string;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.tc";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    normalize?: boolean | undefined;
+                }, "kind" | "id" | "namespace" | "schemaVersion">, generator: import("../../../types").IdGenerator): Promise<{
+                    id: string;
+                    instruction: string;
+                    input: string;
+                    expectedOutput: string;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.tc";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    normalize?: boolean | undefined;
+                }>;
+            };
+            readonly response: z.ZodObject<Omit<{
+                id: z.ZodString;
+                namespace: z.ZodString;
+                schemaVersion: z.ZodNumber;
+                kind: z.ZodString;
+                startedAt: z.ZodNumber;
+                completedAt: z.ZodNumber;
+                testCaseId: z.ZodString;
+                metadata: z.ZodOptional<z.ZodRecord<z.ZodString, z.ZodUnknown>>;
+            }, "kind" | "namespace" | "schemaVersion"> & {
+                data: z.ZodString;
+                modelSlug: z.ZodString;
+                provider: z.ZodString;
+                systemPromptId: z.ZodOptional<z.ZodString>;
+                inputTokensUsed: z.ZodOptional<z.ZodNumber>;
+                outputTokensUsed: z.ZodOptional<z.ZodNumber>;
+                inputCost: z.ZodOptional<z.ZodString>;
+                outputCost: z.ZodOptional<z.ZodString>;
+            } & {
+                namespace: z.ZodLiteral<"example.peerbench.ai">;
+                kind: z.ZodLiteral<"llm/exact-match.rs">;
+                schemaVersion: z.ZodLiteral<1>;
+            }, z.core.$strip> & {
+                new: (input: Omit<{
+                    startedAt: number;
+                    completedAt: number;
+                    id: string;
+                    testCaseId: string;
+                    data: string;
+                    modelSlug: string;
+                    provider: string;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.rs";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    systemPromptId?: string | undefined;
+                    inputTokensUsed?: number | undefined;
+                    outputTokensUsed?: number | undefined;
+                    inputCost?: string | undefined;
+                    outputCost?: string | undefined;
+                }, "kind" | "namespace" | "schemaVersion">) => {
+                    startedAt: number;
+                    completedAt: number;
+                    id: string;
+                    testCaseId: string;
+                    data: string;
+                    modelSlug: string;
+                    provider: string;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.rs";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    systemPromptId?: string | undefined;
+                    inputTokensUsed?: number | undefined;
+                    outputTokensUsed?: number | undefined;
+                    inputCost?: string | undefined;
+                    outputCost?: string | undefined;
+                };
+                newWithId(input: Omit<{
+                    startedAt: number;
+                    completedAt: number;
+                    id: string;
+                    testCaseId: string;
+                    data: string;
+                    modelSlug: string;
+                    provider: string;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.rs";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    systemPromptId?: string | undefined;
+                    inputTokensUsed?: number | undefined;
+                    outputTokensUsed?: number | undefined;
+                    inputCost?: string | undefined;
+                    outputCost?: string | undefined;
+                }, "kind" | "id" | "namespace" | "schemaVersion">, generator: import("../../../types").IdGenerator): Promise<{
+                    startedAt: number;
+                    completedAt: number;
+                    id: string;
+                    testCaseId: string;
+                    data: string;
+                    modelSlug: string;
+                    provider: string;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.rs";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    systemPromptId?: string | undefined;
+                    inputTokensUsed?: number | undefined;
+                    outputTokensUsed?: number | undefined;
+                    inputCost?: string | undefined;
+                    outputCost?: string | undefined;
+                }>;
+            };
+            readonly score: z.ZodObject<Omit<{
+                id: z.ZodString;
+                namespace: z.ZodString;
+                kind: z.ZodString;
+                schemaVersion: z.ZodNumber;
+                value: z.ZodNumber;
+                responseId: z.ZodString;
+                explanation: z.ZodOptional<z.ZodString>;
+                metadata: z.ZodOptional<z.ZodRecord<z.ZodString, z.ZodUnknown>>;
+                scoringMethod: z.ZodEnum<{
+                    readonly ai: "ai";
+                    readonly human: "human";
+                    readonly algo: "algo";
+                }>;
+            }, "kind" | "namespace" | "schemaVersion"> & {
+                match: z.ZodBoolean;
+                normalized: z.ZodOptional<z.ZodObject<{
+                    expected: z.ZodString;
+                    actual: z.ZodString;
+                }, z.core.$strip>>;
+                scorerAISystemPrompt: z.ZodOptional<z.ZodString>;
+                scorerAISystemPromptId: z.ZodOptional<z.ZodString>;
+                scorerAIProvider: z.ZodOptional<z.ZodString>;
+                scorerAIModelSlug: z.ZodOptional<z.ZodString>;
+                scorerAIInputTokensUsed: z.ZodOptional<z.ZodNumber>;
+                scorerAIOutputTokensUsed: z.ZodOptional<z.ZodNumber>;
+                scorerAIInputCost: z.ZodOptional<z.ZodString>;
+                scorerAIOutputCost: z.ZodOptional<z.ZodString>;
+            } & {
+                namespace: z.ZodLiteral<"example.peerbench.ai">;
+                kind: z.ZodLiteral<"llm/exact-match.sc">;
+                schemaVersion: z.ZodLiteral<1>;
+            }, z.core.$strip> & {
+                new: (input: Omit<{
+                    id: string;
+                    value: number;
+                    responseId: string;
+                    scoringMethod: "ai" | "human" | "algo";
+                    match: boolean;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.sc";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    explanation?: string | undefined;
+                    normalized?: {
+                        expected: string;
+                        actual: string;
+                    } | undefined;
+                    scorerAISystemPrompt?: string | undefined;
+                    scorerAISystemPromptId?: string | undefined;
+                    scorerAIProvider?: string | undefined;
+                    scorerAIModelSlug?: string | undefined;
+                    scorerAIInputTokensUsed?: number | undefined;
+                    scorerAIOutputTokensUsed?: number | undefined;
+                    scorerAIInputCost?: string | undefined;
+                    scorerAIOutputCost?: string | undefined;
+                }, "kind" | "namespace" | "schemaVersion">) => {
+                    id: string;
+                    value: number;
+                    responseId: string;
+                    scoringMethod: "ai" | "human" | "algo";
+                    match: boolean;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.sc";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    explanation?: string | undefined;
+                    normalized?: {
+                        expected: string;
+                        actual: string;
+                    } | undefined;
+                    scorerAISystemPrompt?: string | undefined;
+                    scorerAISystemPromptId?: string | undefined;
+                    scorerAIProvider?: string | undefined;
+                    scorerAIModelSlug?: string | undefined;
+                    scorerAIInputTokensUsed?: number | undefined;
+                    scorerAIOutputTokensUsed?: number | undefined;
+                    scorerAIInputCost?: string | undefined;
+                    scorerAIOutputCost?: string | undefined;
+                };
+                newWithId(input: Omit<{
+                    id: string;
+                    value: number;
+                    responseId: string;
+                    scoringMethod: "ai" | "human" | "algo";
+                    match: boolean;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.sc";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    explanation?: string | undefined;
+                    normalized?: {
+                        expected: string;
+                        actual: string;
+                    } | undefined;
+                    scorerAISystemPrompt?: string | undefined;
+                    scorerAISystemPromptId?: string | undefined;
+                    scorerAIProvider?: string | undefined;
+                    scorerAIModelSlug?: string | undefined;
+                    scorerAIInputTokensUsed?: number | undefined;
+                    scorerAIOutputTokensUsed?: number | undefined;
+                    scorerAIInputCost?: string | undefined;
+                    scorerAIOutputCost?: string | undefined;
+                }, "kind" | "id" | "namespace" | "schemaVersion">, generator: import("../../../types").IdGenerator): Promise<{
+                    id: string;
+                    value: number;
+                    responseId: string;
+                    scoringMethod: "ai" | "human" | "algo";
+                    match: boolean;
+                    namespace: "example.peerbench.ai";
+                    kind: "llm/exact-match.sc";
+                    schemaVersion: 1;
+                    metadata?: Record<string, unknown> | undefined;
+                    explanation?: string | undefined;
+                    normalized?: {
+                        expected: string;
+                        actual: string;
+                    } | undefined;
+                    scorerAISystemPrompt?: string | undefined;
+                    scorerAISystemPromptId?: string | undefined;
+                    scorerAIProvider?: string | undefined;
+                    scorerAIModelSlug?: string | undefined;
+                    scorerAIInputTokensUsed?: number | undefined;
+                    scorerAIOutputTokensUsed?: number | undefined;
+                    scorerAIInputCost?: string | undefined;
+                    scorerAIOutputCost?: string | undefined;
+                }>;
+            };
+        }];
+        providers: [typeof AbstractLLMProvider];
+        scorers: [typeof ExactMatchScorer, typeof LLMAsAJudgeScorer];
+        parseRunConfig?: boolean;
+        defaults?: {
+            scorer?: LLMAsAJudgeScorer | ExactMatchScorer | undefined;
+            responseIdGenerator?: import("../../../types").IdGenerator;
+            scoreIdGenerator?: import("../../../types").IdGenerator;
+        } | undefined;
+    };
+};