npm - qualifire - Versions diffs - 1.3.0 → 1.4.0 - Mend

qualifire 1.3.0 → 1.4.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

package/README.md CHANGED Viewed

@@ -1,4 +1,4 @@
-Qualifire
+# Qualifire SDK
 [![CodeQL](https://github.com/qualifire-dev/qualifire-typescript-sdk/actions/workflows/codeql-analysis.yml/badge.svg)](https://github.com/qualifire-dev/qualifire-typescript-sdk/actions/workflows/codeql-analysis.yml)
 [![Release](https://github.com/qualifire-dev/qualifire-typescript-sdk/actions/workflows/release.yml/badge.svg)](https://github.com/qualifire-dev/qualifire-typescript-sdk/actions/workflows/release.yml)
@@ -7,9 +7,7 @@ Qualifire
 [![Commitizen Friendly][commitizen-img]][commitizen-url]
 [![Semantic Release][semantic-release-img]][semantic-release-url]
-# Qualifire SDK
-This is the official SDK for interacting with the Qualifire API.
+The official TypeScript SDK for evaluating LLM outputs with [Qualifire](https://qualifire.ai). Detect hallucinations, prompt injections, PII leakage, content policy violations, and more.
 ## Installation
@@ -17,79 +15,238 @@ This is the official SDK for interacting with the Qualifire API.
 npm install qualifire
 ```
-## usage
+## Quick Start
+```typescript
+import { Qualifire } from 'qualifire';
+import OpenAI from 'openai';
+const qualifire = new Qualifire({ apiKey: 'your-api-key' });
+const openai = new OpenAI();
+// Make your LLM call
+const request = {
+  model: 'gpt-4o',
+  messages: [
+    { role: 'system', content: 'You are a helpful assistant.' },
+    { role: 'user', content: 'What is the capital of France?' },
+  ],
+};
+const response = await openai.chat.completions.create(request);
-First, import the `Qualifire` class from the SDK:
+// Evaluate the response
+const evaluation = await qualifire.evaluate({
+  framework: 'openai',
+  request,
+  response,
+  hallucinationsCheck: true,
+  groundingCheck: true,
+});
-```javascript
-import { Qualifire } from 'qualifire-sdk';
+console.log(evaluation);
+// {
+//   status: 'passed',
+//   score: 100,
+//   evaluationResults: [...]
+// }
 ```
-Then, create a new instance of the Qualifire class, passing your API key and the base URL of the Qualifire API:
+## Supported Frameworks
-```javascript
-const qualifire = new Qualifire({
-  apiKey: 'your-api-key',
+| Framework | Value | SDK |
+|-----------|-------|-----|
+| OpenAI | `openai` | `openai` (Chat Completions & Responses API) |
+| Anthropic Claude | `claude` | `@anthropic-ai/sdk` |
+| Google Gemini | `gemini` | `@google/genai` |
+| Vercel AI SDK | `vercelai` | `ai` |
+All frameworks support both streaming and non-streaming responses.
+## Available Evaluation Checks
+| Check | Parameter | Description |
+|-------|-----------|-------------|
+| Hallucinations | `hallucinationsCheck` | Detect fabricated information |
+| Grounding | `groundingCheck` | Verify responses are grounded in context |
+| Prompt Injections | `promptInjections` | Detect prompt injection attempts |
+| PII Detection | `piiCheck` | Identify personally identifiable information |
+| Content Moderation | `contentModerationCheck` | Flag harmful content |
+| Instructions Following | `instructionsFollowingCheck` | Verify adherence to system instructions |
+| Tool Selection Quality | `toolSelectionQualityCheck` | Evaluate tool/function call accuracy |
+| Custom Assertions | `assertions` | Array of custom assertion strings |
+## Framework Examples
+### OpenAI
+```typescript
+// Chat Completions API
+const request = {
+  model: 'gpt-4o',
+  messages: [{ role: 'user', content: 'Hello!' }],
+};
+const response = await openai.chat.completions.create(request);
+await qualifire.evaluate({
+  framework: 'openai',
+  request,
+  response,
+  hallucinationsCheck: true,
+});
+// Streaming
+const streamRequest = { ...request, stream: true };
+const stream = await openai.chat.completions.create(streamRequest);
+const chunks = [];
+for await (const chunk of stream) {
+  chunks.push(chunk);
+}
+await qualifire.evaluate({
+  framework: 'openai',
+  request: streamRequest,
+  response: chunks,
+  hallucinationsCheck: true,
 });
 ```
-ℹ️ There are default environment variables if you prefer to set it that way `QUALIFIRE_API_KEY`
+### Anthropic Claude
-You can now use the `evaluate` method to evaluate input and output data:
+```typescript
+import Anthropic from '@anthropic-ai/sdk';
-```javascript
-const input = {
-  model: 'gpt-3.5-turbo',
-  messages: [
-    {
-      role: 'user',
-      content: 'this is my awesome request',
-    },
-  ],
+const anthropic = new Anthropic();
+const request = {
+  model: 'claude-sonnet-4-20250514',
+  max_tokens: 1024,
+  messages: [{ role: 'user', content: 'Hello!' }],
 };
+const response = await anthropic.messages.create(request);
-const output = await openai.chat.completions.create(input);
+await qualifire.evaluate({
+  framework: 'claude',
+  request,
+  response,
+  promptInjections: true,
+});
+```
+### Google Gemini
+```typescript
+import { GoogleGenAI } from '@google/genai';
+const genai = new GoogleGenAI({ apiKey: 'your-key' });
+const request = {
+  model: 'gemini-2.0-flash',
+  contents: [{ role: 'user', parts: [{ text: 'Hello!' }] }],
+};
+const response = await genai.models.generateContent(request);
+await qualifire.evaluate({
+  framework: 'gemini',
+  request,
+  response,
+  contentModerationCheck: true,
+});
+```
+### Vercel AI SDK
+```typescript
+import { generateText } from 'ai';
+import { openai } from '@ai-sdk/openai';
+const request = {
+  model: openai('gpt-4o'),
+  prompt: 'Hello!',
+};
+const response = await generateText(request);
-const evaluationResponse = await qualifire.evaluate(input, output); // This will block until the evaluation is done
-console.log(evaluationResponse);
+await qualifire.evaluate({
+  framework: 'vercelai',
+  request,
+  response,
+  piiCheck: true,
+});
 ```
-### Non-blocking execution
+## Direct Message Mode
-In case you want to trigger a completely async evaluation (to view in qualifire's UI) simply add the `{async: true}` option to your call.
+For cases where you don't use a supported framework, pass messages directly:
-```javascript
-const input = {
-  model: 'gpt-3.5-turbo',
+```typescript
+await qualifire.evaluate({
   messages: [
-    {
-      role: 'user',
-      content: 'this is my awesome request',
-    },
+    { role: 'user', content: 'What is 2+2?' },
+    { role: 'assistant', content: 'The answer is 4.' },
   ],
-};
+  hallucinationsCheck: true,
+  groundingCheck: true,
+});
+```
+## Invoke Pre-configured Evaluations
-const output = await openai.chat.completions.create(input);
+Run evaluations configured in the Qualifire dashboard:
-const evaluationResponse = await qualifire.evaluate(input, output, {
-  async: true,
-}); // This will block until the evaluation is done
-console.log(evaluationResponse);
+```typescript
+const result = await qualifire.invokeEvaluation({
+  input: 'What is the capital of France?',
+  output: 'Paris is the capital of France.',
+  evaluationId: 'eval-123',
+});
 ```
-Evaluates the input and output using the Qualifire API. Returns a promise that resolves to the evaluation response, or undefined if async is true.
+## Configuration
+### Constructor Options
+```typescript
+const qualifire = new Qualifire({
+  apiKey: 'your-api-key',      // Required (or set QUALIFIRE_API_KEY env var)
+  baseUrl: 'https://...',      // Optional, defaults to https://proxy.qualifire.ai
+});
+```
+### Environment Variables
+| Variable | Description |
+|----------|-------------|
+| `QUALIFIRE_API_KEY` | API key for authentication |
+| `QUALIFIRE_BASE_URL` | Override the API base URL |
+## Response Format
+```typescript
+interface EvaluationResponse {
+  status: 'passed' | 'failed';
+  score: number;  // 0-100
+  evaluationResults: Array<{
+    type: string;
+    results: Array<{
+      name: string;
+      score: number;
+      label: string;
+      confidence_score: number;
+      reason: string;
+    }>;
+  }>;
+}
+```
+## License
+MIT
-[build-img]: https://github.com/qualifire-dev/develop/qualifire-typescript-sdk/actions/workflows/release.yml/badge.svg
-[build-url]: https://github.com/qualifire-dev/qualifire-typescript-sdk/actions/workflows/release.yml
-[downloads-img]: https://img.shields.io/npm/dt/main/qualifire
-[npm-url]: https://www.npmjs.com/package/qualifire
-[issues-img]: https://img.shields.io/github/issues/qualifire-dev/develop/qualifire-typescript-sdk
+[issues-img]: https://img.shields.io/github/issues/qualifire-dev/qualifire-typescript-sdk
 [issues-url]: https://github.com/qualifire-dev/qualifire-typescript-sdk/issues
-[codecov-img]: https://codecov.io/gh/qualifire-dev/develop/qualifire-typescript-sdk/branch/main/graph/badge.svg
-[codecov-url]: https://codecov.io/gh/qualifire-dev/develop/qualifire-typescript-sdk
+[codecov-img]: https://codecov.io/gh/qualifire-dev/qualifire-typescript-sdk/branch/main/graph/badge.svg
+[codecov-url]: https://codecov.io/gh/qualifire-dev/qualifire-typescript-sdk
 [semantic-release-img]: https://img.shields.io/badge/%20%20%F0%9F%93%A6%F0%9F%9A%80-semantic--release-e10079.svg
 [semantic-release-url]: https://github.com/semantic-release/semantic-release
 [commitizen-img]: https://img.shields.io/badge/commitizen-friendly-brightgreen.svg

package/lib/index.d.ts CHANGED Viewed

@@ -1,5 +1,5 @@
 import { EvaluationProxyAPIRequest, type EvaluationRequestV2, type EvaluationResponse } from './types';
-export type { EvaluationProxyAPIRequest, EvaluationRequestV2, EvaluationResponse, Framework, LLMMessage, ModelMode, PolicyTarget } from './types';
+export type { EvaluationProxyAPIRequest, EvaluationRequestV2, EvaluationResponse, Framework, LLMMessage, ModelMode, PolicyTarget, } from './types';
 /**
  * Represents the Qualifire SDK.
  */
@@ -70,7 +70,7 @@ export declare class Qualifire {
      *  instructionsFollowingCheck: true,
      *  piiCheck: true,
      *  promptInjections: true,
-     *  toolSelectionQualityCheck: false,
+     *  toolUseQualityCheck: false, // Use this instead of deprecated toolSelectionQualityCheck
      * });
      *
      * // If you are using streaming mode.

package/lib/index.js CHANGED Viewed

@@ -104,7 +104,7 @@ class Qualifire {
          *  instructionsFollowingCheck: true,
          *  piiCheck: true,
          *  promptInjections: true,
-         *  toolSelectionQualityCheck: false,
+         *  toolUseQualityCheck: false, // Use this instead of deprecated toolSelectionQualityCheck
          * });
          *
          * // If you are using streaming mode.
@@ -209,13 +209,22 @@ class Qualifire {
                 messages: evaluationProxyAPIRequest.messages,
                 available_tools: evaluationProxyAPIRequest.available_tools,
                 content_moderation_check: contentModerationCheck,
-                grounding_check: evaluationProxyAPIRequest.grounding_check || evaluationProxyAPIRequest.groundingCheck,
-                hallucinations_check: evaluationProxyAPIRequest.hallucinations_check || evaluationProxyAPIRequest.hallucinationsCheck,
-                instructions_following_check: evaluationProxyAPIRequest.instructions_following_check || evaluationProxyAPIRequest.instructionsFollowingCheck,
-                pii_check: evaluationProxyAPIRequest.pii_check || evaluationProxyAPIRequest.piiCheck,
-                prompt_injections: evaluationProxyAPIRequest.prompt_injections || evaluationProxyAPIRequest.promptInjections,
-                syntax_checks: evaluationProxyAPIRequest.syntax_checks || evaluationProxyAPIRequest.syntaxChecks,
-                tool_selection_quality_check: evaluationProxyAPIRequest.tool_selection_quality_check || evaluationProxyAPIRequest.toolSelectionQualityCheck,
+                grounding_check: evaluationProxyAPIRequest.grounding_check ||
+                    evaluationProxyAPIRequest.groundingCheck,
+                hallucinations_check: evaluationProxyAPIRequest.hallucinations_check ||
+                    evaluationProxyAPIRequest.hallucinationsCheck,
+                instructions_following_check: evaluationProxyAPIRequest.instructions_following_check ||
+                    evaluationProxyAPIRequest.instructionsFollowingCheck,
+                pii_check: evaluationProxyAPIRequest.pii_check ||
+                    evaluationProxyAPIRequest.piiCheck,
+                prompt_injections: evaluationProxyAPIRequest.prompt_injections ||
+                    evaluationProxyAPIRequest.promptInjections,
+                syntax_checks: evaluationProxyAPIRequest.syntax_checks ||
+                    evaluationProxyAPIRequest.syntaxChecks,
+                tool_use_quality_check: evaluationProxyAPIRequest.toolUseQualityCheck ||
+                    evaluationProxyAPIRequest.toolSelectionQualityCheck ||
+                    evaluationProxyAPIRequest.tool_selection_quality_check,
+                tuq_mode: evaluationProxyAPIRequest.tuqMode ?? evaluationProxyAPIRequest.tsqMode,
                 assertions: evaluationProxyAPIRequest.assertions,
             };
             const headers = {
@@ -244,10 +253,10 @@ class Qualifire {
                 EvaluationRequestV2.hateSpeechCheck ||
                 EvaluationRequestV2.sexualContentCheck;
             const frameworkConverters = {
-                'openai': () => new openai_converter_1.OpenAICanonicalEvaluationStrategy(),
-                'vercelai': () => new vercelai_converter_1.VercelAICanonicalEvaluationStrategy(),
-                'gemini': () => new gemini_converter_1.GeminiAICanonicalEvaluationStrategy(),
-                'claude': () => new claude_converter_1.ClaudeCanonicalEvaluationStrategy(),
+                openai: () => new openai_converter_1.OpenAICanonicalEvaluationStrategy(),
+                vercelai: () => new vercelai_converter_1.VercelAICanonicalEvaluationStrategy(),
+                gemini: () => new gemini_converter_1.GeminiAICanonicalEvaluationStrategy(),
+                claude: () => new claude_converter_1.ClaudeCanonicalEvaluationStrategy(),
             };
             const supportedFrameworks = Object.keys(frameworkConverters);
             const converterFactory = frameworkConverters[EvaluationRequestV2.framework];
@@ -267,7 +276,10 @@ class Qualifire {
                 pii_check: EvaluationRequestV2.piiCheck,
                 prompt_injections: EvaluationRequestV2.promptInjections,
                 syntax_checks: EvaluationRequestV2.syntaxChecks,
-                tool_selection_quality_check: EvaluationRequestV2.toolSelectionQualityCheck,
+                tool_use_quality_check: EvaluationRequestV2.toolUseQualityCheck ||
+                    EvaluationRequestV2.toolSelectionQualityCheck ||
+                    EvaluationRequestV2.tool_selection_quality_check,
+                tuq_mode: EvaluationRequestV2.tuqMode ?? EvaluationRequestV2.tsqMode,
                 assertions: EvaluationRequestV2.assertions,
             };
             const headers = {

package/lib/types.d.ts CHANGED Viewed

@@ -1,10 +1,10 @@
 import { z } from 'zod';
 declare const FrameworkEnum: readonly ["openai", "vercelai", "gemini", "claude"];
-export type Framework = typeof FrameworkEnum[number];
+export type Framework = (typeof FrameworkEnum)[number];
 declare const ModelModeEnum: readonly ["speed", "balanced", "quality"];
-export type ModelMode = typeof ModelModeEnum[number];
+export type ModelMode = (typeof ModelModeEnum)[number];
 declare const PolicyTargetEnum: readonly ["input", "output", "both"];
-export type PolicyTarget = typeof PolicyTargetEnum[number];
+export type PolicyTarget = (typeof PolicyTargetEnum)[number];
 export declare const messageSchema: z.ZodObject<{
     role: z.ZodString;
     content: z.ZodNullable<z.ZodString>;
@@ -105,6 +105,7 @@ export declare const EvaluationRequestV2Schema: z.ZodObject<{
         args: z.ZodString;
     }, z.core.$strip>>>;
     toolSelectionQualityCheck: z.ZodOptional<z.ZodDefault<z.ZodBoolean>>;
+    toolUseQualityCheck: z.ZodOptional<z.ZodDefault<z.ZodBoolean>>;
     assertions: z.ZodOptional<z.ZodArray<z.ZodString>>;
     available_tools: z.ZodOptional<z.ZodArray<z.ZodObject<{
         name: z.ZodString;
@@ -124,11 +125,16 @@ export declare const EvaluationRequestV2Schema: z.ZodObject<{
         args: z.ZodString;
     }, z.core.$strip>>>;
     tool_selection_quality_check: z.ZodOptional<z.ZodDefault<z.ZodBoolean>>;
-    tsqMode: z.ZodOptional<z.ZodDefault<z.ZodEnum<{
+    tsqMode: z.ZodOptional<z.ZodEnum<{
         speed: "speed";
         balanced: "balanced";
         quality: "quality";
-    }>>>;
+    }>>;
+    tuqMode: z.ZodOptional<z.ZodEnum<{
+        speed: "speed";
+        balanced: "balanced";
+        quality: "quality";
+    }>>;
     consistencyMode: z.ZodOptional<z.ZodDefault<z.ZodEnum<{
         speed: "speed";
         balanced: "balanced";
@@ -202,11 +208,17 @@ export declare const EvaluationProxyAPIRequestSchema: z.ZodObject<{
         args: z.ZodString;
     }, z.core.$strip>>>;
     toolSelectionQualityCheck: z.ZodOptional<z.ZodDefault<z.ZodBoolean>>;
-    tsqMode: z.ZodOptional<z.ZodDefault<z.ZodEnum<{
+    toolUseQualityCheck: z.ZodOptional<z.ZodDefault<z.ZodBoolean>>;
+    tsqMode: z.ZodOptional<z.ZodEnum<{
         speed: "speed";
         balanced: "balanced";
         quality: "quality";
-    }>>>;
+    }>>;
+    tuqMode: z.ZodOptional<z.ZodEnum<{
+        speed: "speed";
+        balanced: "balanced";
+        quality: "quality";
+    }>>;
     consistencyMode: z.ZodOptional<z.ZodDefault<z.ZodEnum<{
         speed: "speed";
         balanced: "balanced";

package/lib/types.js CHANGED Viewed

@@ -78,7 +78,9 @@ exports.EvaluationRequestV2Schema = zod_1.z.object({
     sexualContentCheck: zod_1.z.boolean().default(false).optional(),
     contentModerationCheck: zod_1.z.boolean().default(false).optional(),
     syntaxChecks: zod_1.z.record(zod_1.z.string(), SyntaxCheckArgsSchema).optional(),
+    /** @deprecated Use toolUseQualityCheck instead */
     toolSelectionQualityCheck: zod_1.z.boolean().default(false).optional(),
+    toolUseQualityCheck: zod_1.z.boolean().default(false).optional(),
     assertions: zod_1.z.array(zod_1.z.string()).optional(),
     /** @deprecated Automatically added from the request*/
     available_tools: zod_1.z.array(exports.LLMToolDefinitionSchema).optional(),
@@ -102,9 +104,11 @@ exports.EvaluationRequestV2Schema = zod_1.z.object({
     sexual_content_check: zod_1.z.boolean().default(false).optional(),
     /** @deprecated Use syntaxChecks instead */
     syntax_checks: zod_1.z.record(zod_1.z.string(), SyntaxCheckArgsSchema).optional(),
-    /** @deprecated Use toolSelectionQualityCheck instead */
+    /** @deprecated Use toolUseQualityCheck instead */
     tool_selection_quality_check: zod_1.z.boolean().default(false).optional(),
-    tsqMode: zod_1.z.enum(ModelModeEnum).default('balanced').optional(),
+    /** @deprecated Use tuqMode instead */
+    tsqMode: zod_1.z.enum(ModelModeEnum).optional(),
+    tuqMode: zod_1.z.enum(ModelModeEnum).optional(),
     consistencyMode: zod_1.z.enum(ModelModeEnum).default('balanced').optional(),
     assertionsMode: zod_1.z.enum(ModelModeEnum).default('balanced').optional(),
     groundingMode: zod_1.z.enum(ModelModeEnum).default('balanced').optional(),
@@ -161,8 +165,12 @@ exports.EvaluationProxyAPIRequestSchema = zod_1.z
     sexualContentCheck: zod_1.z.boolean().default(false).optional(),
     contentModerationCheck: zod_1.z.boolean().default(false).optional(),
     syntaxChecks: zod_1.z.record(zod_1.z.string(), SyntaxCheckArgsSchema).optional(),
+    /** @deprecated Use toolUseQualityCheck instead */
     toolSelectionQualityCheck: zod_1.z.boolean().default(false).optional(),
-    tsqMode: zod_1.z.enum(ModelModeEnum).default('balanced').optional(),
+    toolUseQualityCheck: zod_1.z.boolean().default(false).optional(),
+    /** @deprecated Use tuqMode instead */
+    tsqMode: zod_1.z.enum(ModelModeEnum).optional(),
+    tuqMode: zod_1.z.enum(ModelModeEnum).optional(),
     consistencyMode: zod_1.z.enum(ModelModeEnum).default('balanced').optional(),
     assertionsMode: zod_1.z.enum(ModelModeEnum).default('balanced').optional(),
     groundingMode: zod_1.z.enum(ModelModeEnum).default('balanced').optional(),
@@ -183,20 +191,22 @@ exports.EvaluationProxyAPIRequestSchema = zod_1.z
             path: [], // Top level
         });
     }
-    // Validation: tool_selection_quality_check requires messages and available_tools
-    if (data.tool_selection_quality_check) {
+    // Validation: tool_selection_quality_check or toolSelectionQualityCheck or toolUseQualityCheck requires messages and available_tools
+    if (data.tool_selection_quality_check ||
+        data.toolSelectionQualityCheck ||
+        data.toolUseQualityCheck) {
         const hasAvailableTools = Array.isArray(data.available_tools) && data.available_tools.length > 0;
         if (!hasMessages) {
             ctx.addIssue({
                 code: zod_1.z.ZodIssueCode.custom,
-                message: 'messages must be provided when tool_selection_quality_check is true',
+                message: 'messages must be provided when tool quality check is enabled',
                 path: ['messages'],
             });
         }
         if (!hasAvailableTools) {
             ctx.addIssue({
                 code: zod_1.z.ZodIssueCode.custom,
-                message: 'available_tools must be provided when tool_selection_quality_check is true',
+                message: 'available_tools must be provided when tool quality check is enabled',
                 path: ['available_tools'],
             });
         }

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "qualifire",
-  "version": "1.3.0",
+  "version": "1.4.0",
   "description": "Qualifire client SDK",
   "main": "./lib/index.js",
   "files": [