npm - @mastra/evals - Versions diffs - 1.2.3 → 1.2.4 - Mend

@mastra/evals 1.2.3 → 1.2.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (27) hide show

package/CHANGELOG.md +18 -0
package/dist/{chunk-33T2SZZ2.cjs → chunk-BULMCHKJ.cjs} +20 -16
package/dist/chunk-BULMCHKJ.cjs.map +1 -0
package/dist/{chunk-ZRHCSFKL.js → chunk-XOXUFZEG.js} +20 -16
package/dist/chunk-XOXUFZEG.js.map +1 -0
package/dist/docs/SKILL.md +1 -1
package/dist/docs/assets/SOURCE_MAP.json +1 -1
package/dist/docs/references/docs-evals-overview.md +2 -2
package/dist/docs/references/reference-evals-answer-relevancy.md +1 -1
package/dist/docs/references/reference-evals-answer-similarity.md +1 -1
package/dist/docs/references/reference-evals-bias.md +1 -1
package/dist/docs/references/reference-evals-context-precision.md +3 -3
package/dist/docs/references/reference-evals-context-relevance.md +11 -11
package/dist/docs/references/reference-evals-faithfulness.md +1 -1
package/dist/docs/references/reference-evals-hallucination.md +5 -5
package/dist/docs/references/reference-evals-noise-sensitivity.md +11 -11
package/dist/docs/references/reference-evals-prompt-alignment.md +15 -15
package/dist/docs/references/reference-evals-tool-call-accuracy.md +3 -3
package/dist/docs/references/reference-evals-toxicity.md +1 -1
package/dist/scorers/prebuilt/index.cjs +74 -74
package/dist/scorers/prebuilt/index.js +1 -1
package/dist/scorers/utils.cjs +25 -25
package/dist/scorers/utils.d.ts.map +1 -1
package/dist/scorers/utils.js +1 -1
package/package.json +7 -7
package/dist/chunk-33T2SZZ2.cjs.map +0 -1
package/dist/chunk-ZRHCSFKL.js.map +0 -1

package/dist/docs/references/reference-evals-context-precision.md CHANGED Viewed

@@ -98,7 +98,7 @@ MAP = (1.0 + 0.67) / 2 = 0.835 ≈ **0.83**
 ```typescript
 const scorer = createContextPrecisionScorer({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     contextExtractor: (input, output) => {
       // Extract context dynamically based on the query
@@ -117,7 +117,7 @@ const scorer = createContextPrecisionScorer({
 ```typescript
 const scorer = createContextPrecisionScorer({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     context: [
       // Simulate retrieved documents from vector database
@@ -142,7 +142,7 @@ import { createContextPrecisionScorer } from '@mastra/evals/scorers/prebuilt'
 import { myAgent } from './agent'
 const scorer = createContextPrecisionScorer({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     contextExtractor: (input, output) => {
       // Extract context from agent's retrieved documents

package/dist/docs/references/reference-evals-context-relevance.md CHANGED Viewed

@@ -119,7 +119,7 @@ import { createContextRelevanceScorerLLM } from '@mastra/evals'
 // Stricter penalty configuration
 const strictScorer = createContextRelevanceScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     context: [
       'Einstein won the Nobel Prize for photoelectric effect',
@@ -137,7 +137,7 @@ const strictScorer = createContextRelevanceScorerLLM({
 // Lenient penalty configuration
 const lenientScorer = createContextRelevanceScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     context: [
       'Einstein won the Nobel Prize for photoelectric effect',
@@ -183,7 +183,7 @@ console.log('Lenient penalties:', lenientResult.score) // Higher score, less pen
 ```typescript
 const scorer = createContextRelevanceScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     contextExtractor: (input, output) => {
       // Extract context based on the query
@@ -207,7 +207,7 @@ const scorer = createContextRelevanceScorerLLM({
 ```typescript
 const scorer = createContextRelevanceScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     context: ['Relevant information...', 'Supporting details...'],
     scale: 100, // Scale scores from 0-100 instead of 0-1
@@ -221,7 +221,7 @@ const scorer = createContextRelevanceScorerLLM({
 ```typescript
 const scorer = createContextRelevanceScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     contextExtractor: (input, output) => {
       const query = input?.inputMessages?.[0]?.content || ''
@@ -248,7 +248,7 @@ This example shows excellent context relevance where all context directly suppor
 import { createContextRelevanceScorerLLM } from '@mastra/evals'
 const scorer = createContextRelevanceScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     context: [
       'Einstein won the Nobel Prize for his discovery of the photoelectric effect in 1921.',
@@ -295,7 +295,7 @@ This example shows moderate relevance with some context being irrelevant or unus
 import { createContextRelevanceScorerLLM } from '@mastra/evals'
 const scorer = createContextRelevanceScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     context: [
       'Solar eclipses occur when the Moon blocks the Sun.',
@@ -337,7 +337,7 @@ console.log(result)
 // With custom penalty configuration
 const customScorer = createContextRelevanceScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     context: [
       'Solar eclipses occur when the Moon blocks the Sun.',
@@ -384,7 +384,7 @@ This example shows poor context relevance with mostly irrelevant information:
 import { createContextRelevanceScorerLLM } from '@mastra/evals'
 const scorer = createContextRelevanceScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     context: [
       'The Great Barrier Reef is located in Australia.',
@@ -432,7 +432,7 @@ Extract context dynamically based on the run input:
 import { createContextRelevanceScorerLLM } from '@mastra/evals'
 const scorer = createContextRelevanceScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     contextExtractor: (input, output) => {
       // Extract query from input
@@ -475,7 +475,7 @@ Integrate with RAG pipelines to evaluate retrieved context:
 import { createContextRelevanceScorerLLM } from '@mastra/evals'
 const scorer = createContextRelevanceScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     contextExtractor: (input, output) => {
       // Extract from RAG retrieval results

package/dist/docs/references/reference-evals-faithfulness.md CHANGED Viewed

@@ -79,7 +79,7 @@ import { myAgent } from './agent'
 // Context is typically populated from agent tool calls or RAG retrieval
 const scorer = createFaithfulnessScorer({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
 })
 const result = await runEvals({

package/dist/docs/references/reference-evals-hallucination.md CHANGED Viewed

@@ -104,7 +104,7 @@ Use static context when you have known ground truth to compare against:
 import { createHallucinationScorer } from '@mastra/evals/scorers/prebuilt'
 const scorer = createHallucinationScorer({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     context: [
       'The first iPhone was announced on January 9, 2007.',
@@ -124,7 +124,7 @@ import { createHallucinationScorer } from '@mastra/evals/scorers/prebuilt'
 import { extractToolResults } from '@mastra/evals/scorers'
 const scorer = createHallucinationScorer({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     getContext: ({ run, step }) => {
       // Extract tool results as context
@@ -145,7 +145,7 @@ import { createHallucinationScorer } from '@mastra/evals/scorers/prebuilt'
 import { extractToolResults } from '@mastra/evals/scorers'
 const hallucinationScorer = createHallucinationScorer({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     getContext: ({ run }) => {
       const toolResults = extractToolResults(run.output)
@@ -156,7 +156,7 @@ const hallucinationScorer = createHallucinationScorer({
 const agent = new Agent({
   name: 'my-agent',
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   instructions: 'You are a helpful assistant.',
   evals: {
     scorers: [hallucinationScorer],
@@ -172,7 +172,7 @@ import { createHallucinationScorer } from '@mastra/evals/scorers/prebuilt'
 import { myAgent } from './agent'
 const scorer = createHallucinationScorer({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     context: ['Known fact 1', 'Known fact 2'],
   },

package/dist/docs/references/reference-evals-noise-sensitivity.md CHANGED Viewed

@@ -61,7 +61,7 @@ describe('Agent Noise Resistance Tests', () => {
     // Step 4: Evaluate using noise sensitivity scorer
     const scorer = createNoiseSensitivityScorerLLM({
-      model: 'openai/gpt-5.4',
+      model: 'openai/gpt-5.5',
       options: {
         baselineResponse,
         noisyQuery,
@@ -256,7 +256,7 @@ describe('Agent Noise Resistance CI Tests', () => {
       // Evaluate using noise sensitivity scorer
       const scorer = createNoiseSensitivityScorerLLM({
-        model: 'openai/gpt-5.4',
+        model: 'openai/gpt-5.5',
         options: {
           baselineResponse: testCase.baselineResponse,
           noisyQuery: testCase.noisyQuery,
@@ -291,7 +291,7 @@ This example shows an agent that completely resists misinformation in a test sce
 import { createNoiseSensitivityScorerLLM } from '@mastra/evals'
 const scorer = createNoiseSensitivityScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     baselineResponse:
       'Regular exercise improves cardiovascular health, strengthens muscles, and enhances mental wellbeing.',
@@ -337,7 +337,7 @@ This example shows an agent partially distracted by irrelevant requests:
 import { createNoiseSensitivityScorerLLM } from '@mastra/evals/scorers/prebuilt'
 const scorer = createNoiseSensitivityScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     baselineResponse:
       'To bake a cake: Mix flour, sugar, eggs, and butter. Bake at 350°F for 30 minutes.',
@@ -382,7 +382,7 @@ This example shows an agent that incorporates misinformation:
 import { createNoiseSensitivityScorerLLM } from '@mastra/evals'
 const scorer = createNoiseSensitivityScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     baselineResponse: 'Climate change is caused by greenhouse gas emissions from human activities.',
     noisyQuery:
@@ -428,7 +428,7 @@ import { createNoiseSensitivityScorerLLM } from '@mastra/evals'
 // Lenient scoring - more forgiving of minor issues
 const lenientScorer = createNoiseSensitivityScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     baselineResponse: 'Python is a high-level programming language.',
     noisyQuery: 'What is Python? Also, snakes are dangerous!',
@@ -448,7 +448,7 @@ const lenientScorer = createNoiseSensitivityScorerLLM({
 // Strict scoring - harsh on any deviation
 const strictScorer = createNoiseSensitivityScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     baselineResponse: 'Python is a high-level programming language.',
     noisyQuery: 'What is Python? Also, snakes are dangerous!',
@@ -499,7 +499,7 @@ async function evaluateNoiseResistance(testCases) {
   for (const testCase of testCases) {
     const scorer = createNoiseSensitivityScorerLLM({
-      model: 'openai/gpt-5.4',
+      model: 'openai/gpt-5.5',
       options: {
         baselineResponse: testCase.baseline,
         noisyQuery: testCase.noisyQuery,
@@ -546,9 +546,9 @@ import { createNoiseSensitivityScorerLLM } from '@mastra/evals'
 async function compareModelRobustness() {
   const models = [
-    { name: 'GPT-5.4', model: 'openai/gpt-5.4' },
+    { name: 'GPT-5.4', model: 'openai/gpt-5.5' },
     { name: 'GPT-5.4-mini', model: 'openai/gpt-5-mini' },
-    { name: 'Claude', model: 'anthropic/claude-opus-4-6' },
+    { name: 'Claude', model: 'anthropic/claude-opus-4-7' },
   ]
   const testScenario = {
@@ -598,7 +598,7 @@ Include noise sensitivity tests in your security test suite to validate prompt i
 import { createNoiseSensitivityScorerLLM } from '@mastra/evals'
 const scorer = createNoiseSensitivityScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     baselineResponse: 'I can help you with programming questions.',
     noisyQuery:

package/dist/docs/references/reference-evals-prompt-alignment.md CHANGED Viewed

@@ -60,7 +60,7 @@ You can customize the Prompt Alignment Scorer by adjusting the scale parameter a
 ```typescript
 const scorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     scale: 10, // Score from 0-10 instead of 0-1
     evaluationMode: 'both', // 'user', 'system', or 'both' (default)
@@ -221,24 +221,24 @@ Measure how well your AI agents follow user instructions:
 const agent = new Agent({
   name: 'CodingAssistant',
   instructions: 'You are a helpful coding assistant. Always provide working code examples.',
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
 })
 // Evaluate comprehensive alignment (default)
 const scorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: { evaluationMode: 'both' }, // Evaluates both user intent and system guidelines
 })
 // Evaluate just user satisfaction
 const userScorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: { evaluationMode: 'user' }, // Focus only on user request fulfillment
 })
 // Evaluate system compliance
 const systemScorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: { evaluationMode: 'system' }, // Check adherence to system instructions
 })
@@ -290,7 +290,7 @@ for (const agent of agents) {
 import { createPromptAlignmentScorerLLM } from '@mastra/evals'
 const scorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
 })
 // Evaluate a code generation task
@@ -319,7 +319,7 @@ const result = await scorer.run({
 ```typescript
 // Configure scale and evaluation mode
 const scorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: {
     scale: 10, // Score from 0-10 instead of 0-1
     evaluationMode: 'both', // 'user', 'system', or 'both' (default)
@@ -328,13 +328,13 @@ const scorer = createPromptAlignmentScorerLLM({
 // User-only evaluation - focus on user satisfaction
 const userScorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: { evaluationMode: 'user' },
 })
 // System-only evaluation - focus on compliance
 const systemScorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: { evaluationMode: 'system' },
 })
@@ -369,7 +369,7 @@ In this example, the response fully addresses the user's prompt with all require
 import { createPromptAlignmentScorerLLM } from '@mastra/evals/scorers/prebuilt'
 const scorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
 })
 const inputMessages = [
@@ -417,7 +417,7 @@ In this example, the response addresses the core intent but misses some requirem
 import { createPromptAlignmentScorerLLM } from '@mastra/evals/scorers/prebuilt'
 const scorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
 })
 const inputMessages = [
@@ -458,7 +458,7 @@ In this example, the response fails to address the user's specific requirements.
 import { createPromptAlignmentScorerLLM } from '@mastra/evals/scorers/prebuilt'
 const scorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
 })
 const inputMessages = [
@@ -502,7 +502,7 @@ Evaluates how well the response addresses the user's request, ignoring system in
 ```typescript
 const scorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: { evaluationMode: 'user' },
 })
@@ -534,7 +534,7 @@ Evaluates compliance with system behavioral guidelines and constraints:
 ```typescript
 const scorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: { evaluationMode: 'system' },
 })
@@ -566,7 +566,7 @@ Evaluates both user intent fulfillment and system compliance with weighted scori
 ```typescript
 const scorer = createPromptAlignmentScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   options: { evaluationMode: 'both' }, // This is the default
 })

package/dist/docs/references/reference-evals-tool-call-accuracy.md CHANGED Viewed

@@ -309,7 +309,7 @@ The LLM-based scorer provides:
 ```typescript
 // Basic configuration
 const basicLLMScorer = createLLMScorer({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   availableTools: [
     { name: 'tool1', description: 'Description 1' },
     { name: 'tool2', description: 'Description 2' }
@@ -349,7 +349,7 @@ The LLM-based scorer uses AI to evaluate whether tool selections are appropriate
 ```typescript
 const llmScorer = createToolCallAccuracyScorerLLM({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   availableTools: [
     {
       name: 'weather-tool',
@@ -482,7 +482,7 @@ const codeScorer = createCodeScorer({
 })
 const llmScorer = createLLMScorer({
-  model: 'openai/gpt-5.4',
+  model: 'openai/gpt-5.5',
   availableTools: [
     { name: 'weather-tool', description: 'Get weather information' },
     { name: 'search-tool', description: 'Search the web' },

package/dist/docs/references/reference-evals-toxicity.md CHANGED Viewed

@@ -86,7 +86,7 @@ import { runEvals } from '@mastra/core/evals'
 import { createToxicityScorer } from '@mastra/evals/scorers/prebuilt'
 import { myAgent } from './agent'
-const scorer = createToxicityScorer({ model: 'openai/gpt-5.4' })
+const scorer = createToxicityScorer({ model: 'openai/gpt-5.5' })
 const result = await runEvals({
   data: [