npm - @mastra/evals - Versions diffs - 0.1.0 → 0.1.1 - Mend

@mastra/evals 0.1.0 → 0.1.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (58) hide show

package/.turbo/turbo-build.log +17 -11
package/.turbo/turbo-lint.log +4 -0
package/CHANGELOG.md +28 -0
package/dist/_tsup-dts-rollup.d.ts +45 -19
package/dist/chunk-TXXJUIES.js +15 -0
package/dist/{dist-56AYDN4X.js → dist-W3SXCXOT.js} +843 -471
package/dist/index.js +2 -3
package/dist/magic-string.es-5UDOWOAZ.js +20 -20
package/dist/metrics/judge/index.d.ts +1 -0
package/dist/metrics/judge/index.js +2 -0
package/dist/metrics/llm/index.d.ts +1 -0
package/dist/metrics/llm/index.js +243 -49
package/dist/metrics/nlp/index.js +1 -1
package/eslint.config.js +6 -0
package/package.json +14 -5
package/src/evaluation.ts +3 -2
package/src/metrics/index.ts +1 -0
package/src/metrics/judge/index.ts +1 -1
package/src/metrics/llm/answer-relevancy/index.test.ts +2 -1
package/src/metrics/llm/answer-relevancy/index.ts +3 -3
package/src/metrics/llm/answer-relevancy/metricJudge.ts +9 -9
package/src/metrics/llm/bias/index.test.ts +2 -1
package/src/metrics/llm/bias/index.ts +5 -5
package/src/metrics/llm/bias/metricJudge.ts +3 -3
package/src/metrics/llm/context-position/index.test.ts +2 -1
package/src/metrics/llm/context-position/index.ts +3 -3
package/src/metrics/llm/context-position/metricJudge.ts +9 -9
package/src/metrics/llm/context-precision/index.test.ts +1 -1
package/src/metrics/llm/context-precision/index.ts +3 -3
package/src/metrics/llm/context-precision/metricJudge.ts +9 -10
package/src/metrics/llm/context-relevancy/index.test.ts +1 -1
package/src/metrics/llm/context-relevancy/index.ts +2 -2
package/src/metrics/llm/context-relevancy/metricJudge.ts +1 -1
package/src/metrics/llm/contextual-recall/index.test.ts +1 -1
package/src/metrics/llm/contextual-recall/index.ts +2 -2
package/src/metrics/llm/contextual-recall/metricJudge.ts +1 -1
package/src/metrics/llm/faithfulness/index.test.ts +1 -1
package/src/metrics/llm/faithfulness/index.ts +2 -2
package/src/metrics/llm/faithfulness/metricJudge.ts +1 -1
package/src/metrics/llm/hallucination/index.test.ts +1 -1
package/src/metrics/llm/hallucination/index.ts +2 -2
package/src/metrics/llm/hallucination/metricJudge.ts +1 -1
package/src/metrics/llm/index.ts +1 -0
package/src/metrics/llm/prompt-alignment/index.test.ts +1 -1
package/src/metrics/llm/prompt-alignment/index.ts +1 -1
package/src/metrics/llm/prompt-alignment/metricJudge.ts +1 -1
package/src/metrics/llm/summarization/index.test.ts +2 -1
package/src/metrics/llm/summarization/index.ts +2 -2
package/src/metrics/llm/summarization/metricJudge.ts +1 -1
package/src/metrics/llm/toxicity/index.test.ts +1 -1
package/src/metrics/llm/toxicity/index.ts +2 -2
package/src/metrics/llm/toxicity/metricJudge.ts +3 -3
package/src/metrics/llm/types.ts +1 -1
package/src/metrics/nlp/completeness/index.ts +2 -1
package/src/metrics/nlp/content-similarity/index.ts +2 -1
package/src/metrics/nlp/keyword-coverage/index.ts +2 -1
package/src/metrics/nlp/textual-difference/index.ts +2 -1
package/src/metrics/nlp/tone/index.ts +2 -1

package/.turbo/turbo-build.log CHANGED Viewed

@@ -1,23 +1,29 @@
-> @mastra/evals@0.1.0-alpha.37 build C:\Users\Ward\projects\mastra\mastra\packages\evals
-> tsup src/index.ts src/metrics/llm/index.ts src/metrics/nlp/index.ts --format esm --experimental-dts --clean --treeshake
+> @mastra/evals@0.1.1-alpha.0 build C:\Users\Ward\projects\mastra\mastra\packages\evals
+> pnpm check && tsup src/index.ts src/metrics/judge/index.ts src/metrics/llm/index.ts src/metrics/nlp/index.ts --format esm --experimental-dts --clean --treeshake
-[34mCLI[39m Building entry: src/index.ts, src/metrics/llm/index.ts, src/metrics/nlp/index.ts
+> @mastra/evals@0.1.1-alpha.0 check C:\Users\Ward\projects\mastra\mastra\packages\evals
+> tsc --noEmit
+[34mCLI[39m Building entry: src/index.ts, src/metrics/judge/index.ts, src/metrics/llm/index.ts, src/metrics/nlp/index.ts
 [34mCLI[39m Using tsconfig: tsconfig.json
 [34mCLI[39m tsup v8.3.6
 [34mTSC[39m Build start
-[32mTSC[39m ⚡️ Build success in 2319ms
+[32mTSC[39m ⚡️ Build success in 5143ms
 [34mDTS[39m Build start
 [34mCLI[39m Target: es2022
 Analysis will use the bundled TypeScript version 5.7.3
 [36mWriting package typings: C:\Users\Ward\projects\mastra\mastra\packages\evals\dist\_tsup-dts-rollup.d.ts[39m
-[32mDTS[39m ⚡️ Build success in 1572ms
+[32mDTS[39m ⚡️ Build success in 3821ms
 [34mCLI[39m Cleaning output folder
 [34mESM[39m Build start
-[32mESM[39m [1mdist\index.js                    [22m[32m2.12 KB[39m
-[32mESM[39m [1mdist\magic-string.es-5UDOWOAZ.js [22m[32m40.86 KB[39m
+[32mESM[39m [1mdist\index.js                    [22m[32m2.63 KB[39m
+[32mESM[39m [1mdist\metrics\judge\index.js      [22m[32m94.00 B[39m
 [32mESM[39m [1mdist\chunk-4VNS5WPM.js           [22m[32m1.82 KB[39m
-[32mESM[39m [1mdist\metrics\nlp\index.js        [22m[32m6.31 KB[39m
-[32mESM[39m [1mdist\metrics\llm\index.js        [22m[32m73.79 KB[39m
-[32mESM[39m [1mdist\dist-56AYDN4X.js            [22m[32m566.98 KB[39m
-[32mESM[39m ⚡️ Build success in 772ms
+[32mESM[39m [1mdist\metrics\llm\index.js        [22m[32m85.32 KB[39m
+[32mESM[39m [1mdist\magic-string.es-5UDOWOAZ.js [22m[32m40.80 KB[39m
+[32mESM[39m [1mdist\chunk-TXXJUIES.js           [22m[32m305.00 B[39m
+[32mESM[39m [1mdist\metrics\nlp\index.js        [22m[32m6.30 KB[39m
+[32mESM[39m [1mdist\dist-W3SXCXOT.js            [22m[32m570.71 KB[39m
+[32mESM[39m ⚡️ Build success in 2104ms

package/.turbo/turbo-lint.log ADDED Viewed

@@ -0,0 +1,4 @@
+> @mastra/evals@0.1.0 lint C:\Users\Ward\projects\mastra\mastra\packages\evals
+> eslint .

package/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,33 @@
 # @mastra/evals
+## 0.1.1
+### Patch Changes
+- d59f1a8: Added example docs for evals and export metricJudge
+- 91ef439: Add eslint and ran autofix
+- Updated dependencies [d59f1a8]
+- Updated dependencies [91ef439]
+- Updated dependencies [4a25be4]
+- Updated dependencies [bf2e88f]
+- Updated dependencies [2f0d707]
+- Updated dependencies [aac1667]
+  - @mastra/core@0.2.1
+## 0.1.1-alpha.0
+### Patch Changes
+- d59f1a8: Added example docs for evals and export metricJudge
+- 91ef439: Add eslint and ran autofix
+- Updated dependencies [d59f1a8]
+- Updated dependencies [91ef439]
+- Updated dependencies [4a25be4]
+- Updated dependencies [bf2e88f]
+- Updated dependencies [2f0d707]
+- Updated dependencies [aac1667]
+  - @mastra/core@0.2.1-alpha.0
 ## 0.1.0
 ### Minor Changes

package/dist/_tsup-dts-rollup.d.ts CHANGED Viewed

@@ -1,10 +1,10 @@
 import { Agent } from '@mastra/core/agent';
-import { LanguageModel } from '@mastra/core/llm';
+import type { LanguageModel } from '@mastra/core/llm';
 import type { Mastra } from '@mastra/core';
-import { Metric } from '@mastra/core';
+import type { Metric } from '@mastra/core';
 import { Metric as Metric_2 } from '@mastra/core/eval';
 import { MetricResult } from '@mastra/core';
-import { MetricResult as MetricResult_2 } from '@mastra/core/eval';
+import type { MetricResult as MetricResult_2 } from '@mastra/core/eval';
 export declare const ANSWER_RELEVANCY_AGENT_INSTRUCTIONS = "You are a balanced and nuanced answer relevancy evaluator. Your job is to determine if LLM outputs are relevant to the input, including handling partially relevant or uncertain cases.\n\nKey Principles:\n1. Evaluate whether the output addresses what the input is asking for\n2. Consider both direct answers and related context\n3. Prioritize relevance to the input over correctness\n4. Recognize that responses can be partially relevant\n5. Empty inputs or error messages should always be marked as \"no\"\n6. Responses that discuss the type of information being asked show partial relevance";
@@ -14,10 +14,16 @@ export declare class AnswerRelevancyJudge extends MastraAgentJudge {
         verdict: string;
         reason: string;
     }[]>;
-    getReason(input: string, actualOutput: string, score: number, scale: number, verdicts: {
-        verdict: string;
-        reason: string;
-    }[]): Promise<string>;
+    getReason(args: {
+        input: string;
+        output: string;
+        score: number;
+        scale: number;
+        verdicts: {
+            verdict: string;
+            reason: string;
+        }[];
+    }): Promise<string>;
 }
 declare class AnswerRelevancyMetric extends Metric_2 {
@@ -49,7 +55,10 @@ export declare class BiasJudge extends MastraAgentJudge {
         verdict: string;
         reason: string;
     }[]>;
-    getReason(score: number, biases: string[]): Promise<string>;
+    getReason(args: {
+        score: number;
+        biases: string[];
+    }): Promise<string>;
 }
 declare class BiasMetric extends Metric_2 {
@@ -123,10 +132,16 @@ export declare class ContextPositionJudge extends MastraAgentJudge {
         verdict: string;
         reason: string;
     }[]>;
-    getReason(input: string, actualOutput: string, score: number, scale: number, verdicts: {
-        verdict: string;
-        reason: string;
-    }[]): Promise<string>;
+    getReason(args: {
+        input: string;
+        output: string;
+        score: number;
+        scale: number;
+        verdicts: {
+            verdict: string;
+            reason: string;
+        }[];
+    }): Promise<string>;
 }
 declare class ContextPositionMetric extends Metric_2 {
@@ -152,10 +167,16 @@ export declare class ContextPrecisionJudge extends MastraAgentJudge {
         verdict: string;
         reason: string;
     }[]>;
-    getReason(input: string, actualOutput: string, score: number, scale: number, verdicts: {
-        verdict: string;
-        reason: string;
-    }[]): Promise<string>;
+    getReason(args: {
+        input: string;
+        output: string;
+        score: number;
+        scale: number;
+        verdicts: {
+            verdict: string;
+            reason: string;
+        }[];
+    }): Promise<string>;
 }
 declare class ContextPrecisionMetric extends Metric_2 {
@@ -505,7 +526,7 @@ export declare class HallucinationJudge extends MastraAgentJudge {
     }): Promise<string>;
 }
-export declare class HallucinationMetric extends Metric_2 {
+declare class HallucinationMetric extends Metric_2 {
     private judge;
     private scale;
     private context;
@@ -513,6 +534,9 @@ export declare class HallucinationMetric extends Metric_2 {
     measure(input: string, output: string): Promise<MetricResultWithReason>;
     private calculateScore;
 }
+export { HallucinationMetric }
+export { HallucinationMetric as HallucinationMetric_alias_1 }
+export { HallucinationMetric as HallucinationMetric_alias_2 }
 export declare interface HallucinationMetricOptions {
     scale?: number;
@@ -535,10 +559,12 @@ declare interface KeywordCoverageResult extends MetricResult_2 {
     };
 }
-export declare abstract class MastraAgentJudge {
+declare abstract class MastraAgentJudge {
     protected readonly agent: Agent;
     constructor(name: string, instructions: string, model: LanguageModel);
 }
+export { MastraAgentJudge }
+export { MastraAgentJudge as MastraAgentJudge_alias_1 }
 export declare interface MetricResultWithReason extends MetricResult_2 {
     info: {
@@ -714,7 +740,7 @@ export declare class ToxicityJudge extends MastraAgentJudge {
         verdict: string;
         reason: string;
     }[]>;
-    getReason({ score, toxics }: {
+    getReason(args: {
         score: number;
         toxics: string[];
     }): Promise<string>;

package/dist/chunk-TXXJUIES.js ADDED Viewed

@@ -0,0 +1,15 @@
+import { Agent } from '@mastra/core/agent';
+// src/metrics/judge/index.ts
+var MastraAgentJudge = class {
+  agent;
+  constructor(name, instructions, model) {
+    this.agent = new Agent({
+      name: `Mastra Eval Judge ${name}`,
+      instructions,
+      model
+    });
+  }
+};
+export { MastraAgentJudge };