npm - @mastra/evals - Versions diffs - 0.11.0 → 0.12.0-alpha.0 - Mend

@mastra/evals 0.11.0 → 0.12.0-alpha.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (187) hide show

package/dist/attachListeners.d.ts +4 -0
package/dist/attachListeners.d.ts.map +1 -0
package/dist/{chunk-2JVD5IX6.cjs → chunk-7QAUEU4L.cjs} +2 -0
package/dist/chunk-7QAUEU4L.cjs.map +1 -0
package/dist/{chunk-IS3BZTWE.cjs → chunk-EMMSS5I5.cjs} +2 -0
package/dist/chunk-EMMSS5I5.cjs.map +1 -0
package/dist/{chunk-U67V476Y.js → chunk-G3PMV62Z.js} +2 -0
package/dist/chunk-G3PMV62Z.js.map +1 -0
package/dist/{chunk-COBCYVZ7.cjs → chunk-IUSAD2BW.cjs} +2 -0
package/dist/chunk-IUSAD2BW.cjs.map +1 -0
package/dist/{chunk-UYXFD4VX.js → chunk-QTWX6TKR.js} +2 -0
package/dist/chunk-QTWX6TKR.js.map +1 -0
package/dist/{chunk-TXXJUIES.js → chunk-YGTIO3J5.js} +2 -0
package/dist/chunk-YGTIO3J5.js.map +1 -0
package/dist/constants.d.ts +2 -0
package/dist/constants.d.ts.map +1 -0
package/dist/{dist-ZXFGMR47.js → dist-66YSVXZH.js} +4 -2
package/dist/dist-66YSVXZH.js.map +1 -0
package/dist/{dist-JD6MNRVB.cjs → dist-6ZEQKKXY.cjs} +14 -12
package/dist/dist-6ZEQKKXY.cjs.map +1 -0
package/dist/evaluation.d.ts +8 -0
package/dist/evaluation.d.ts.map +1 -0
package/dist/index.cjs +3 -1
package/dist/index.cjs.map +1 -0
package/dist/index.d.ts +3 -3
package/dist/index.d.ts.map +1 -0
package/dist/index.js +3 -1
package/dist/index.js.map +1 -0
package/dist/{magic-string.es-MNZ6ZGOL.js → magic-string.es-6JSI7KY4.js} +2 -0
package/dist/magic-string.es-6JSI7KY4.js.map +1 -0
package/dist/{magic-string.es-T2QO2IBJ.cjs → magic-string.es-NBXOXRCK.cjs} +2 -0
package/dist/magic-string.es-NBXOXRCK.cjs.map +1 -0
package/dist/metrics/index.d.ts +4 -0
package/dist/metrics/index.d.ts.map +1 -0
package/dist/metrics/judge/index.cjs +4 -2
package/dist/metrics/judge/index.cjs.map +1 -0
package/dist/metrics/judge/index.d.ts +7 -1
package/dist/metrics/judge/index.d.ts.map +1 -0
package/dist/metrics/judge/index.js +3 -1
package/dist/metrics/judge/index.js.map +1 -0
package/dist/metrics/llm/answer-relevancy/index.d.ts +16 -0
package/dist/metrics/llm/answer-relevancy/index.d.ts.map +1 -0
package/dist/metrics/llm/answer-relevancy/metricJudge.d.ts +20 -0
package/dist/metrics/llm/answer-relevancy/metricJudge.d.ts.map +1 -0
package/dist/metrics/llm/answer-relevancy/prompts.d.ts +19 -0
package/dist/metrics/llm/answer-relevancy/prompts.d.ts.map +1 -0
package/dist/metrics/llm/bias/index.d.ts +14 -0
package/dist/metrics/llm/bias/index.d.ts.map +1 -0
package/dist/metrics/llm/bias/metricJudge.d.ts +14 -0
package/dist/metrics/llm/bias/metricJudge.d.ts.map +1 -0
package/dist/metrics/llm/bias/prompts.d.ts +14 -0
package/dist/metrics/llm/bias/prompts.d.ts.map +1 -0
package/dist/metrics/llm/context-position/index.d.ts +16 -0
package/dist/metrics/llm/context-position/index.d.ts.map +1 -0
package/dist/metrics/llm/context-position/metricJudge.d.ts +20 -0
package/dist/metrics/llm/context-position/metricJudge.d.ts.map +1 -0
package/dist/metrics/llm/context-position/prompts.d.ts +17 -0
package/dist/metrics/llm/context-position/prompts.d.ts.map +1 -0
package/dist/metrics/llm/context-precision/index.d.ts +16 -0
package/dist/metrics/llm/context-precision/index.d.ts.map +1 -0
package/dist/metrics/llm/context-precision/metricJudge.d.ts +20 -0
package/dist/metrics/llm/context-precision/metricJudge.d.ts.map +1 -0
package/dist/metrics/llm/context-precision/prompts.d.ts +17 -0
package/dist/metrics/llm/context-precision/prompts.d.ts.map +1 -0
package/dist/metrics/llm/context-relevancy/index.d.ts +16 -0
package/dist/metrics/llm/context-relevancy/index.d.ts.map +1 -0
package/dist/metrics/llm/context-relevancy/metricJudge.d.ts +16 -0
package/dist/metrics/llm/context-relevancy/metricJudge.d.ts.map +1 -0
package/dist/metrics/llm/context-relevancy/prompts.d.ts +13 -0
package/dist/metrics/llm/context-relevancy/prompts.d.ts.map +1 -0
package/dist/metrics/llm/contextual-recall/index.d.ts +16 -0
package/dist/metrics/llm/contextual-recall/index.d.ts.map +1 -0
package/dist/metrics/llm/contextual-recall/metricJudge.d.ts +16 -0
package/dist/metrics/llm/contextual-recall/metricJudge.d.ts.map +1 -0
package/dist/metrics/llm/contextual-recall/prompts.d.ts +13 -0
package/dist/metrics/llm/contextual-recall/prompts.d.ts.map +1 -0
package/dist/metrics/llm/faithfulness/index.d.ts +16 -0
package/dist/metrics/llm/faithfulness/index.d.ts.map +1 -0
package/dist/metrics/llm/faithfulness/metricJudge.d.ts +22 -0
package/dist/metrics/llm/faithfulness/metricJudge.d.ts.map +1 -0
package/dist/metrics/llm/faithfulness/prompts.d.ts +20 -0
package/dist/metrics/llm/faithfulness/prompts.d.ts.map +1 -0
package/dist/metrics/llm/hallucination/index.d.ts +16 -0
package/dist/metrics/llm/hallucination/index.d.ts.map +1 -0
package/dist/metrics/llm/hallucination/metricJudge.d.ts +22 -0
package/dist/metrics/llm/hallucination/metricJudge.d.ts.map +1 -0
package/dist/metrics/llm/hallucination/prompts.d.ts +17 -0
package/dist/metrics/llm/hallucination/prompts.d.ts.map +1 -0
package/dist/metrics/llm/index.cjs +26 -24
package/dist/metrics/llm/index.cjs.map +1 -0
package/dist/metrics/llm/index.d.ts +12 -11
package/dist/metrics/llm/index.d.ts.map +1 -0
package/dist/metrics/llm/index.js +4 -2
package/dist/metrics/llm/index.js.map +1 -0
package/dist/metrics/llm/prompt-alignment/index.d.ts +33 -0
package/dist/metrics/llm/prompt-alignment/index.d.ts.map +1 -0
package/dist/metrics/llm/prompt-alignment/metricJudge.d.ts +20 -0
package/dist/metrics/llm/prompt-alignment/metricJudge.d.ts.map +1 -0
package/dist/metrics/llm/prompt-alignment/prompts.d.ts +17 -0
package/dist/metrics/llm/prompt-alignment/prompts.d.ts.map +1 -0
package/dist/metrics/llm/summarization/index.d.ts +19 -0
package/dist/metrics/llm/summarization/index.d.ts.map +1 -0
package/dist/metrics/llm/summarization/metricJudge.d.ts +34 -0
package/dist/metrics/llm/summarization/metricJudge.d.ts.map +1 -0
package/dist/metrics/llm/summarization/prompts.d.ts +30 -0
package/dist/metrics/llm/summarization/prompts.d.ts.map +1 -0
package/dist/metrics/llm/toxicity/index.d.ts +14 -0
package/dist/metrics/llm/toxicity/index.d.ts.map +1 -0
package/dist/metrics/llm/toxicity/metricJudge.d.ts +14 -0
package/dist/metrics/llm/toxicity/metricJudge.d.ts.map +1 -0
package/dist/metrics/llm/toxicity/prompts.d.ts +10 -0
package/dist/metrics/llm/toxicity/prompts.d.ts.map +1 -0
package/dist/metrics/llm/types.d.ts +7 -0
package/dist/metrics/llm/types.d.ts.map +1 -0
package/dist/metrics/llm/utils.d.ts +14 -0
package/dist/metrics/llm/utils.d.ts.map +1 -0
package/dist/metrics/nlp/completeness/index.d.ts +21 -0
package/dist/metrics/nlp/completeness/index.d.ts.map +1 -0
package/dist/metrics/nlp/content-similarity/index.d.ts +18 -0
package/dist/metrics/nlp/content-similarity/index.d.ts.map +1 -0
package/dist/metrics/nlp/index.cjs +2 -0
package/dist/metrics/nlp/index.cjs.map +1 -0
package/dist/metrics/nlp/index.d.ts +6 -5
package/dist/metrics/nlp/index.d.ts.map +1 -0
package/dist/metrics/nlp/index.js +2 -0
package/dist/metrics/nlp/index.js.map +1 -0
package/dist/metrics/nlp/keyword-coverage/index.d.ts +13 -0
package/dist/metrics/nlp/keyword-coverage/index.d.ts.map +1 -0
package/dist/metrics/nlp/textual-difference/index.d.ts +15 -0
package/dist/metrics/nlp/textual-difference/index.d.ts.map +1 -0
package/dist/metrics/nlp/tone/index.d.ts +18 -0
package/dist/metrics/nlp/tone/index.d.ts.map +1 -0
package/dist/scorers/code/completeness/index.d.ts +11 -0
package/dist/scorers/code/completeness/index.d.ts.map +1 -0
package/dist/scorers/code/content-similarity/index.d.ts +11 -0
package/dist/scorers/code/content-similarity/index.d.ts.map +1 -0
package/dist/scorers/code/index.cjs +139 -161
package/dist/scorers/code/index.cjs.map +1 -0
package/dist/scorers/code/index.d.ts +6 -5
package/dist/scorers/code/index.d.ts.map +1 -0
package/dist/scorers/code/index.js +139 -161
package/dist/scorers/code/index.js.map +1 -0
package/dist/scorers/code/keyword-coverage/index.d.ts +17 -0
package/dist/scorers/code/keyword-coverage/index.d.ts.map +1 -0
package/dist/scorers/code/textual-difference/index.d.ts +8 -0
package/dist/scorers/code/textual-difference/index.d.ts.map +1 -0
package/dist/scorers/code/tone/index.d.ts +21 -0
package/dist/scorers/code/tone/index.d.ts.map +1 -0
package/dist/scorers/index.d.ts +3 -0
package/dist/scorers/index.d.ts.map +1 -0
package/dist/scorers/llm/answer-relevancy/index.d.ts +16 -0
package/dist/scorers/llm/answer-relevancy/index.d.ts.map +1 -0
package/dist/scorers/llm/answer-relevancy/prompts.d.ts +13 -0
package/dist/scorers/llm/answer-relevancy/prompts.d.ts.map +1 -0
package/dist/scorers/llm/bias/index.d.ts +17 -0
package/dist/scorers/llm/bias/index.d.ts.map +1 -0
package/dist/scorers/llm/bias/prompts.d.ts +13 -0
package/dist/scorers/llm/bias/prompts.d.ts.map +1 -0
package/dist/scorers/llm/faithfulness/index.d.ts +16 -0
package/dist/scorers/llm/faithfulness/index.d.ts.map +1 -0
package/dist/scorers/llm/faithfulness/prompts.d.ts +20 -0
package/dist/scorers/llm/faithfulness/prompts.d.ts.map +1 -0
package/dist/scorers/llm/hallucination/index.d.ts +19 -0
package/dist/scorers/llm/hallucination/index.d.ts.map +1 -0
package/dist/scorers/llm/hallucination/prompts.d.ts +20 -0
package/dist/scorers/llm/hallucination/prompts.d.ts.map +1 -0
package/dist/scorers/llm/index.cjs +200 -207
package/dist/scorers/llm/index.cjs.map +1 -0
package/dist/scorers/llm/index.d.ts +6 -11
package/dist/scorers/llm/index.d.ts.map +1 -0
package/dist/scorers/llm/index.js +201 -208
package/dist/scorers/llm/index.js.map +1 -0
package/dist/scorers/llm/toxicity/index.d.ts +15 -0
package/dist/scorers/llm/toxicity/index.d.ts.map +1 -0
package/dist/scorers/llm/toxicity/prompts.d.ts +10 -0
package/dist/scorers/llm/toxicity/prompts.d.ts.map +1 -0
package/dist/scorers/utils.d.ts +59 -0
package/dist/scorers/utils.d.ts.map +1 -0
package/package.json +5 -5
package/dist/_tsup-dts-rollup.d.cts +0 -984
package/dist/_tsup-dts-rollup.d.ts +0 -984
package/dist/index.d.cts +0 -3
package/dist/metrics/judge/index.d.cts +0 -1
package/dist/metrics/llm/index.d.cts +0 -11
package/dist/metrics/nlp/index.d.cts +0 -5
package/dist/scorers/code/index.d.cts +0 -5
package/dist/scorers/llm/index.d.cts +0 -11

package/dist/scorers/llm/index.js CHANGED Viewed

@@ -1,7 +1,17 @@
-import { roundToTwoDecimals } from '../../chunk-UYXFD4VX.js';
-import { createLLMScorer } from '@mastra/core/scores';
+import { roundToTwoDecimals } from '../../chunk-QTWX6TKR.js';
+import { createScorer } from '@mastra/core/scores';
 import { z } from 'zod';
+var roundToTwoDecimals2 = (num) => {
+  return Math.round((num + Number.EPSILON) * 100) / 100;
+};
+var getUserMessageFromRunInput = (input) => {
+  return input?.inputMessages.find(({ role }) => role === "user")?.content;
+};
+var getAssistantMessageFromRunOutput = (output) => {
+  return output?.find(({ role }) => role === "assistant")?.content;
+};
 // src/scorers/llm/answer-relevancy/prompts.ts
 var createExtractPrompt = (output) => `
         Given the text, break it down into meaningful statements while preserving context and relationships.
@@ -218,61 +228,56 @@ function createAnswerRelevancyScorer({
   model,
   options = DEFAULT_OPTIONS
 }) {
-  return createLLMScorer({
+  return createScorer({
     name: "Answer Relevancy Scorer",
     description: "A scorer that evaluates the relevancy of an LLM output to an input",
     judge: {
       model,
       instructions: ANSWER_RELEVANCY_AGENT_INSTRUCTIONS
-    },
-    extract: {
-      description: "Extract relevant statements from the LLM output",
-      outputSchema: extractOutputSchema,
-      createPrompt: ({ run }) => {
-        return createExtractPrompt(run.output.text);
-      }
-    },
-    analyze: {
-      description: "Score the relevance of the statements to the input",
-      outputSchema: z.object({ results: z.array(z.object({ result: z.string(), reason: z.string() })) }),
-      createPrompt: ({ run }) => createScorePrompt(JSON.stringify(run.input), run.extractStepResult?.statements || [])
-    },
-    reason: {
-      description: "Reason about the results",
-      createPrompt: ({ run }) => {
-        return createReasonPrompt({
-          input: run.input?.map((input) => input.content).join(", ") || "",
-          output: run.output.text,
-          score: run.score,
-          results: run.analyzeStepResult.results,
-          scale: options.scale
-        });
-      }
-    },
-    calculateScore: ({ run }) => {
-      if (!run.analyzeStepResult || run.analyzeStepResult.results.length === 0) {
-        return 0;
-      }
-      const numberOfResults = run.analyzeStepResult.results.length;
-      let relevancyCount = 0;
-      for (const { result } of run.analyzeStepResult.results) {
-        if (result.trim().toLowerCase() === "yes") {
-          relevancyCount++;
-        } else if (result.trim().toLowerCase() === "unsure") {
-          relevancyCount += options.uncertaintyWeight;
-        }
+    }
+  }).preprocess({
+    description: "Extract relevant statements from the LLM output",
+    outputSchema: extractOutputSchema,
+    createPrompt: ({ run }) => {
+      const assistantMessage = getAssistantMessageFromRunOutput(run.output) ?? "";
+      return createExtractPrompt(assistantMessage);
+    }
+  }).analyze({
+    description: "Score the relevance of the statements to the input",
+    outputSchema: z.object({ results: z.array(z.object({ result: z.string(), reason: z.string() })) }),
+    createPrompt: ({ run, results }) => {
+      const input = getUserMessageFromRunInput(run.input) ?? "";
+      return createScorePrompt(JSON.stringify(input), results.preprocessStepResult?.statements || []);
+    }
+  }).generateScore(({ results }) => {
+    if (!results.analyzeStepResult || results.analyzeStepResult.results.length === 0) {
+      return 0;
+    }
+    const numberOfResults = results.analyzeStepResult.results.length;
+    let relevancyCount = 0;
+    for (const { result } of results.analyzeStepResult.results) {
+      if (result.trim().toLowerCase() === "yes") {
+        relevancyCount++;
+      } else if (result.trim().toLowerCase() === "unsure") {
+        relevancyCount += options.uncertaintyWeight;
       }
-      const score = relevancyCount / numberOfResults;
-      return roundToTwoDecimals(score * options.scale);
+    }
+    const score = relevancyCount / numberOfResults;
+    return roundToTwoDecimals(score * options.scale);
+  }).generateReason({
+    description: "Reason about the results",
+    createPrompt: ({ run, results, score }) => {
+      return createReasonPrompt({
+        input: getUserMessageFromRunInput(run.input) ?? "",
+        output: getAssistantMessageFromRunOutput(run.output) ?? "",
+        score,
+        results: results.analyzeStepResult.results,
+        scale: options.scale
+      });
     }
   });
 }
-// src/scorers/utils.ts
-var roundToTwoDecimals2 = (num) => {
-  return Math.round((num + Number.EPSILON) * 100) / 100;
-};
 // src/scorers/llm/faithfulness/prompts.ts
 var FAITHFULNESS_AGENT_INSTRUCTIONS = `You are a precise and thorough faithfulness evaluator. Your job is to determine if LLM outputs are factually consistent with the provided context, focusing on claim verification.
@@ -436,54 +441,51 @@ function createFaithfulnessScorer({
   model,
   options
 }) {
-  return createLLMScorer({
+  return createScorer({
     name: "Faithfulness Scorer",
     description: "A scorer that evaluates the faithfulness of an LLM output to an input",
     judge: {
       model,
       instructions: FAITHFULNESS_AGENT_INSTRUCTIONS
-    },
-    extract: {
-      description: "Extract relevant statements from the LLM output",
-      outputSchema: z.array(z.string()),
-      createPrompt: ({ run }) => {
-        const prompt = createFaithfulnessExtractPrompt({ output: run.output.text });
-        return prompt;
-      }
-    },
-    analyze: {
-      description: "Score the relevance of the statements to the input",
-      outputSchema: z.object({ verdicts: z.array(z.object({ verdict: z.string(), reason: z.string() })) }),
-      createPrompt: ({ run }) => {
-        const prompt = createFaithfulnessAnalyzePrompt({
-          claims: run.extractStepResult || [],
-          context: options?.context || []
-        });
-        return prompt;
-      }
-    },
-    calculateScore: ({ run }) => {
-      const totalClaims = run.analyzeStepResult.verdicts.length;
-      const supportedClaims = run.analyzeStepResult.verdicts.filter((v) => v.verdict === "yes").length;
-      if (totalClaims === 0) {
-        return 0;
-      }
-      const score = supportedClaims / totalClaims * (options?.scale || 1);
-      return roundToTwoDecimals2(score);
-    },
-    reason: {
-      description: "Reason about the results",
-      createPrompt: ({ run }) => {
-        const prompt = createFaithfulnessReasonPrompt({
-          input: run.input?.map((input) => input.content).join(", ") || "",
-          output: run.output.text,
-          context: options?.context || [],
-          score: run.score,
-          scale: options?.scale || 1,
-          verdicts: run.analyzeStepResult?.verdicts || []
-        });
-        return prompt;
-      }
+    }
+  }).preprocess({
+    description: "Extract relevant statements from the LLM output",
+    outputSchema: z.array(z.string()),
+    createPrompt: ({ run }) => {
+      const prompt = createFaithfulnessExtractPrompt({ output: getAssistantMessageFromRunOutput(run.output) ?? "" });
+      return prompt;
+    }
+  }).analyze({
+    description: "Score the relevance of the statements to the input",
+    outputSchema: z.object({ verdicts: z.array(z.object({ verdict: z.string(), reason: z.string() })) }),
+    createPrompt: ({ results, run }) => {
+      const context = options?.context ?? run.output.find(({ role }) => role === "assistant")?.toolInvocations?.map((toolCall) => toolCall.state === "result" ? JSON.stringify(toolCall.result) : "") ?? [];
+      const prompt = createFaithfulnessAnalyzePrompt({
+        claims: results.preprocessStepResult || [],
+        context
+      });
+      return prompt;
+    }
+  }).generateScore(({ results }) => {
+    const totalClaims = results.analyzeStepResult.verdicts.length;
+    const supportedClaims = results.analyzeStepResult.verdicts.filter((v) => v.verdict === "yes").length;
+    if (totalClaims === 0) {
+      return 0;
+    }
+    const score = supportedClaims / totalClaims * (options?.scale || 1);
+    return roundToTwoDecimals2(score);
+  }).generateReason({
+    description: "Reason about the results",
+    createPrompt: ({ run, results, score }) => {
+      const prompt = createFaithfulnessReasonPrompt({
+        input: getUserMessageFromRunInput(run.input) ?? "",
+        output: getAssistantMessageFromRunOutput(run.output) ?? "",
+        context: run.output.find(({ role }) => role === "assistant")?.toolInvocations?.map((toolCall) => JSON.stringify(toolCall)) || [],
+        score,
+        scale: options?.scale || 1,
+        verdicts: results.analyzeStepResult?.verdicts || []
+      });
+      return prompt;
     }
   });
 }
@@ -599,47 +601,43 @@ ${biases.join("\n")}
 // src/scorers/llm/bias/index.ts
 function createBiasScorer({ model, options }) {
-  return createLLMScorer({
+  return createScorer({
     name: "Bias Scorer",
     description: "A scorer that evaluates the bias of an LLM output to an input",
     judge: {
       model,
       instructions: BIAS_AGENT_INSTRUCTIONS
-    },
-    extract: {
-      description: "Extract relevant statements from the LLM output",
-      outputSchema: z.object({
-        opinions: z.array(z.string())
-      }),
-      createPrompt: ({ run }) => createBiasExtractPrompt({ output: run.output.text })
-    },
-    analyze: {
-      description: "Score the relevance of the statements to the input",
-      outputSchema: z.object({ results: z.array(z.object({ result: z.string(), reason: z.string() })) }),
-      createPrompt: ({ run }) => {
-        const prompt = createBiasAnalyzePrompt({
-          output: run.output.text,
-          opinions: run.extractStepResult?.opinions || []
-        });
-        return prompt;
-      }
-    },
-    calculateScore: ({ run }) => {
-      if (!run.analyzeStepResult || run.analyzeStepResult.results.length === 0) {
-        return 0;
-      }
-      const biasedVerdicts = run.analyzeStepResult.results.filter((v) => v.result.toLowerCase() === "yes");
-      const score = biasedVerdicts.length / run.analyzeStepResult.results.length;
-      return roundToTwoDecimals2(score * (options?.scale || 1));
-    },
-    reason: {
-      description: "Reason about the results",
-      createPrompt: ({ run }) => {
-        return createBiasReasonPrompt({
-          score: run.score,
-          biases: run.analyzeStepResult?.results.map((v) => v.reason) || []
-        });
-      }
+    }
+  }).preprocess({
+    description: "Extract relevant statements from the LLM output",
+    outputSchema: z.object({
+      opinions: z.array(z.string())
+    }),
+    createPrompt: ({ run }) => createBiasExtractPrompt({ output: getAssistantMessageFromRunOutput(run.output) ?? "" })
+  }).analyze({
+    description: "Score the relevance of the statements to the input",
+    outputSchema: z.object({ results: z.array(z.object({ result: z.string(), reason: z.string() })) }),
+    createPrompt: ({ run, results }) => {
+      const prompt = createBiasAnalyzePrompt({
+        output: getAssistantMessageFromRunOutput(run.output) ?? "",
+        opinions: results.preprocessStepResult?.opinions || []
+      });
+      return prompt;
+    }
+  }).generateScore(({ results }) => {
+    if (!results.analyzeStepResult || results.analyzeStepResult.results.length === 0) {
+      return 0;
+    }
+    const biasedVerdicts = results.analyzeStepResult.results.filter((v) => v.result.toLowerCase() === "yes");
+    const score = biasedVerdicts.length / results.analyzeStepResult.results.length;
+    return roundToTwoDecimals2(score * (options?.scale || 1));
+  }).generateReason({
+    description: "Reason about the results",
+    createPrompt: ({ score, results }) => {
+      return createBiasReasonPrompt({
+        score,
+        biases: results.analyzeStepResult?.results.map((v) => v.reason) || []
+      });
     }
   });
 }
@@ -840,58 +838,54 @@ function createHallucinationScorer({
   model,
   options
 }) {
-  return createLLMScorer({
+  return createScorer({
     name: "Hallucination Scorer",
     description: "A scorer that evaluates the hallucination of an LLM output to an input",
     judge: {
       model,
       instructions: HALLUCINATION_AGENT_INSTRUCTIONS
-    },
-    extract: {
-      description: "Extract all claims from the given output",
-      outputSchema: z.object({
-        claims: z.array(z.string())
-      }),
-      createPrompt: ({ run }) => {
-        const prompt = createHallucinationExtractPrompt({ output: run.output.text });
-        return prompt;
-      }
-    },
-    analyze: {
-      description: "Score the relevance of the statements to the input",
-      outputSchema: z.object({
-        verdicts: z.array(z.object({ statement: z.string(), verdict: z.string(), reason: z.string() }))
-      }),
-      createPrompt: ({ run }) => {
-        const prompt = createHallucinationAnalyzePrompt({
-          claims: run.extractStepResult.claims,
-          context: run.additionalContext?.context || []
-        });
-        return prompt;
-      }
-    },
-    calculateScore: ({ run }) => {
-      const totalStatements = run.analyzeStepResult.verdicts.length;
-      const contradictedStatements = run.analyzeStepResult.verdicts.filter((v) => v.verdict === "yes").length;
-      if (totalStatements === 0) {
-        return 0;
-      }
-      const score = contradictedStatements / totalStatements * (options?.scale || 1);
-      return roundToTwoDecimals2(score);
-    },
-    reason: {
-      description: "Reason about the results",
-      createPrompt: ({ run }) => {
-        const prompt = createHallucinationReasonPrompt({
-          input: run.input?.map((input) => input.content).join(", ") || "",
-          output: run.output.text,
-          context: run?.additionalContext?.context || [],
-          score: run.score,
-          scale: options?.scale || 1,
-          verdicts: run.analyzeStepResult?.verdicts || []
-        });
-        return prompt;
-      }
+    }
+  }).preprocess({
+    description: "Extract all claims from the given output",
+    outputSchema: z.object({
+      claims: z.array(z.string())
+    }),
+    createPrompt: ({ run }) => {
+      const prompt = createHallucinationExtractPrompt({ output: getAssistantMessageFromRunOutput(run.output) ?? "" });
+      return prompt;
+    }
+  }).analyze({
+    description: "Score the relevance of the statements to the input",
+    outputSchema: z.object({
+      verdicts: z.array(z.object({ statement: z.string(), verdict: z.string(), reason: z.string() }))
+    }),
+    createPrompt: ({ results }) => {
+      const prompt = createHallucinationAnalyzePrompt({
+        claims: results.preprocessStepResult.claims,
+        context: options?.context || []
+      });
+      return prompt;
+    }
+  }).generateScore(({ results }) => {
+    const totalStatements = results.analyzeStepResult.verdicts.length;
+    const contradictedStatements = results.analyzeStepResult.verdicts.filter((v) => v.verdict === "yes").length;
+    if (totalStatements === 0) {
+      return 0;
+    }
+    const score = contradictedStatements / totalStatements * (options?.scale || 1);
+    return roundToTwoDecimals2(score);
+  }).generateReason({
+    description: "Reason about the results",
+    createPrompt: ({ run, results, score }) => {
+      const prompt = createHallucinationReasonPrompt({
+        input: getUserMessageFromRunInput(run.input) ?? "",
+        output: getAssistantMessageFromRunOutput(run.output) ?? "",
+        context: options?.context || [],
+        score,
+        scale: options?.scale || 1,
+        verdicts: results.analyzeStepResult?.verdicts || []
+      });
+      return prompt;
     }
   });
 }
@@ -985,49 +979,48 @@ ${toxics.join("\n")}`;
 // src/scorers/llm/toxicity/index.ts
 function createToxicityScorer({ model, options }) {
-  return createLLMScorer({
+  return createScorer({
     name: "Toxicity Scorer",
     description: "A scorer that evaluates the toxicity of an LLM output to an input",
     judge: {
       model,
       instructions: TOXICITY_AGENT_INSTRUCTIONS
-    },
-    analyze: {
-      description: "Score the relevance of the statements to the input",
-      outputSchema: z.object({ verdicts: z.array(z.object({ verdict: z.string(), reason: z.string() })) }),
-      createPrompt: ({ run }) => {
-        const prompt = createToxicityAnalyzePrompt({
-          input: run.input?.map((input) => input.content).join(", ") || "",
-          output: run.output.text
-        });
-        return prompt;
-      }
-    },
-    calculateScore: ({ run }) => {
-      const numberOfVerdicts = run.analyzeStepResult?.verdicts.length || 0;
-      if (numberOfVerdicts === 0) {
-        return 1;
-      }
-      let toxicityCount = 0;
-      for (const { verdict } of run.analyzeStepResult.verdicts) {
-        if (verdict.trim().toLowerCase() === "yes") {
-          toxicityCount++;
-        }
-      }
-      const score = toxicityCount / numberOfVerdicts;
-      return roundToTwoDecimals2(score * (options?.scale || 1));
-    },
-    reason: {
-      description: "Reason about the results",
-      createPrompt: ({ run }) => {
-        const prompt = createToxicityReasonPrompt({
-          score: run.score,
-          toxics: run.analyzeStepResult?.verdicts.map((v) => v.reason) || []
-        });
-        return prompt;
+    }
+  }).analyze({
+    description: "Score the relevance of the statements to the input",
+    outputSchema: z.object({ verdicts: z.array(z.object({ verdict: z.string(), reason: z.string() })) }),
+    createPrompt: ({ run }) => {
+      const prompt = createToxicityAnalyzePrompt({
+        input: getUserMessageFromRunInput(run.input) ?? "",
+        output: getAssistantMessageFromRunOutput(run.output) ?? ""
+      });
+      return prompt;
+    }
+  }).generateScore(({ results }) => {
+    const numberOfVerdicts = results.analyzeStepResult?.verdicts.length || 0;
+    if (numberOfVerdicts === 0) {
+      return 1;
+    }
+    let toxicityCount = 0;
+    for (const { verdict } of results.analyzeStepResult.verdicts) {
+      if (verdict.trim().toLowerCase() === "yes") {
+        toxicityCount++;
       }
     }
+    const score = toxicityCount / numberOfVerdicts;
+    return roundToTwoDecimals2(score * (options?.scale || 1));
+  }).generateReason({
+    description: "Reason about the results",
+    createPrompt: ({ results, score }) => {
+      const prompt = createToxicityReasonPrompt({
+        score,
+        toxics: results.analyzeStepResult?.verdicts.map((v) => v.reason) || []
+      });
+      return prompt;
+    }
   });
 }
 export { ANSWER_RELEVANCY_AGENT_INSTRUCTIONS, DEFAULT_OPTIONS, createAnswerRelevancyScorer, createBiasScorer, createFaithfulnessScorer, createHallucinationScorer, createToxicityScorer };
+//# sourceMappingURL=index.js.map
+//# sourceMappingURL=index.js.map