npm - promptfoo - Versions diffs - 0.17.5 → 0.17.7 - Mend

promptfoo 0.17.5 → 0.17.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (65) hide show

package/dist/package.json +3 -2
package/dist/src/assertions.js +2 -2
package/dist/src/assertions.js.map +1 -1
package/dist/src/cache.d.ts +3 -0
package/dist/src/cache.d.ts.map +1 -1
package/dist/src/cache.js +6 -1
package/dist/src/cache.js.map +1 -1
package/dist/src/evaluator.d.ts.map +1 -1
package/dist/src/evaluator.js +35 -17
package/dist/src/evaluator.js.map +1 -1
package/dist/src/index.d.ts +1 -0
package/dist/src/index.d.ts.map +1 -1
package/dist/src/main.js +11 -5
package/dist/src/main.js.map +1 -1
package/dist/src/providers/azureopenai.d.ts.map +1 -1
package/dist/src/providers/azureopenai.js +1 -13
package/dist/src/providers/azureopenai.js.map +1 -1
package/dist/src/providers/localai.d.ts.map +1 -1
package/dist/src/providers/localai.js +2 -1
package/dist/src/providers/localai.js.map +1 -1
package/dist/src/providers/openai.d.ts +1 -0
package/dist/src/providers/openai.d.ts.map +1 -1
package/dist/src/providers/openai.js +3 -29
package/dist/src/providers/openai.js.map +1 -1
package/dist/src/providers/replicate.d.ts +18 -0
package/dist/src/providers/replicate.d.ts.map +1 -0
package/dist/src/providers/replicate.js +80 -0
package/dist/src/providers/replicate.js.map +1 -0
package/dist/src/providers/shared.d.ts +5 -0
package/dist/src/providers/shared.d.ts.map +1 -1
package/dist/src/providers/shared.js +33 -1
package/dist/src/providers/shared.js.map +1 -1
package/dist/src/providers.d.ts +2 -0
package/dist/src/providers.d.ts.map +1 -1
package/dist/src/providers.js +8 -0
package/dist/src/providers.js.map +1 -1
package/dist/src/types.d.ts +4 -0
package/dist/src/types.d.ts.map +1 -1
package/dist/src/util.d.ts +2 -1
package/dist/src/util.d.ts.map +1 -1
package/dist/src/util.js +20 -1
package/dist/src/util.js.map +1 -1
package/dist/src/web/client/assets/{index-c2756e5d.js → index-13198388.js} +23 -23
package/dist/src/web/client/assets/index-f9b230d1.css +1 -0
package/dist/src/web/client/index.html +2 -2
package/package.json +3 -2
package/src/assertions.ts +2 -2
package/src/cache.ts +5 -1
package/src/evaluator.ts +37 -17
package/src/main.ts +16 -5
package/src/providers/azureopenai.ts +2 -18
package/src/providers/localai.ts +3 -2
package/src/providers/openai.ts +5 -35
package/src/providers/replicate.ts +95 -0
package/src/providers/shared.ts +29 -0
package/src/providers.ts +8 -0
package/src/types.ts +7 -0
package/src/util.ts +25 -0
package/src/web/client/src/App.tsx +6 -0
package/src/web/client/src/EvalOutputPromptDialog.tsx +6 -2
package/src/web/client/src/ResultsTable.tsx +5 -0
package/src/web/client/src/ResultsView.tsx +2 -1
package/src/web/client/src/index.css +1 -12
package/src/web/client/src/types.ts +1 -1
package/dist/src/web/client/assets/index-b82d0138.css +0 -1

package/dist/src/web/client/assets/index-f9b230d1.css ADDED Viewed

@@ -0,0 +1 @@

+ :root{font-family:system-ui,Avenir,Helvetica,Arial,sans-serif;font-synthesis:none;text-rendering:optimizeLegibility;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale;-webkit-text-size-adjust:100%;--background-color: #ffffff;--text-color: #404040;--border-color: lightgray;--table-border-color: lightgray;--pass-color: green;--fail-color: #ad0000;--smalltext-color: gray;--success-background-color: #d1ffd7;--variable-background-color: #f7f7f7;--header-background-color: #fffdf7}[data-theme=dark]{--background-color: #1a1a1a;--text-color: #f0f0f0;--border-color: #444444;--table-border-color: #444444;--pass-color: #4caf50;--fail-color: #f44336;--smalltext-color: #888888;--success-background-color: #216d2b;--variable-background-color: #333;--header-background-color: #333}html{font-size:calc(14px + (18 - 14) * ((100vw - 300px) / (1600 - 300)))}*{box-sizing:border-box}html{font-family:-apple-system,BlinkMacSystemFont,Segoe UI,Helvetica,Arial,sans-serif,"Apple Color Emoji","Segoe UI Emoji",Segoe UI Symbol;font-size:16px;background-color:var(--background-color);color:var(--text-color)}table,.divTable{border:1px solid var(--table-border-color);border-collapse:collapse;width:100%;margin:1rem 0;box-shadow:0 2px 4px #0000001a}.tr{display:flex}tr,.tr{width:fit-content}tr:hover,.tr:hover{background-color:#0000000d}th,.th,td,.td{position:relative;box-shadow:inset 0 0 0 1px var(--border-color);vertical-align:top;padding:1.5rem}th.variable,.th.variable,td.variable,.td.variable{background-color:var(--variable-background-color)}tr.header{background-color:var(--header-background-color)}th,.th{padding:1rem;position:relative;text-align:center;vertical-align:bottom}th .action{cursor:pointer;margin-left:.5rem}tr .cell-actions{display:flex;gap:.5rem;visibility:hidden;position:absolute;bottom:1.25rem;right:0;line-height:0;font-size:1.75rem}tr:hover .cell-actions{visibility:visible}tr .cell-actions .action{cursor:pointer}th .smalltext{visibility:hidden;font-weight:400;font-size:.75rem;color:var(--smalltext-color)}th:hover .smalltext{visibility:visible}th .summary{font-weight:400;font-size:.8rem;padding:.25rem}th .summary.highlight{background-color:var(--success-background-color)}td .status{margin-bottom:.5rem;font-weight:700}td .score{font-weight:400}td .pass{color:var(--pass-color)}td .fail{color:var(--fail-color)}.first-prompt-col{border-left:2px solid #888}.first-prompt-row{border-top:2px solid #888}.resizer{position:absolute;right:0;top:0;height:100%;width:5px;cursor:col-resize;user-select:none;touch-action:none;background:var(--text-color);opacity:.5}.resizer.isResizing{background:var(--text-color);opacity:1}@media (hover: hover){.resizer{opacity:0}*:hover>.resizer{opacity:1}}.logo{display:flex;align-items:center;gap:4px}.logo img{width:30px}.logo span{margin-bottom:6px;color:var(--text-color)}[data-theme=dark] .logo img{filter:invert(1)}nav{display:flex;justify-content:space-between;align-items:center;margin-bottom:1rem;color:var(--text-color)}.dark-mode-toggle{background-color:transparent;border:none;color:var(--text-color);cursor:pointer;font-size:16px;padding:8px;transition:color .3s}.dark-mode-toggle:hover{color:var(--pass-color)}body{background-color:var(--background-color);color:var(--text-color)}

package/dist/src/web/client/index.html CHANGED Viewed

@@ -5,8 +5,8 @@
     <link rel="icon" type="image/svg+xml" href="favicon.ico" />
     <meta name="viewport" content="width=device-width, initial-scale=1.0" />
     <title>promptfoo web viewer</title>
-    <script type="module" crossorigin src="/assets/index-c2756e5d.js"></script>
-    <link rel="stylesheet" href="/assets/index-b82d0138.css">
+    <script type="module" crossorigin src="/assets/index-13198388.js"></script>
+    <link rel="stylesheet" href="/assets/index-f9b230d1.css">
   </head>
   <body>
     <div id="root"></div>

package/package.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "name": "promptfoo",
   "description": "LLM eval & testing toolkit",
   "author": "Ian Webster",
-  "version": "0.17.5",
+  "version": "0.17.7",
   "license": "MIT",
   "type": "commonjs",
   "main": "dist/src/index.js",
@@ -19,7 +19,7 @@
     "src"
   ],
   "engines": {
-    "node": ">=12"
+    "node": ">=16"
   },
   "bin": {
     "promptfoo": "dist/src/main.js"
@@ -79,6 +79,7 @@
     "node-fetch": "^2.6.7",
     "nunjucks": "^3.2.4",
     "opener": "^1.5.2",
+    "replicate": "^0.12.3",
     "rouge": "^1.0.3",
     "semver": "^7.5.3",
     "socket.io": "^4.6.1",

package/src/assertions.ts CHANGED Viewed

@@ -432,8 +432,8 @@ export async function matchesLlmRubric(
   }
   const prompt = nunjucks.renderString(options.rubricPrompt || DEFAULT_GRADING_PROMPT, {
-    output,
-    rubric: expected,
+    output: output.replace(/\n/g, '\\n').replace(/"/g, '\\"'),
+    rubric: expected.replace(/\n/g, '\\n').replace(/"/g, '\\"'),
   });
   let provider = options.provider || DefaultGradingProvider;

package/src/cache.ts CHANGED Viewed

@@ -20,7 +20,7 @@ let enabled =
 const cacheType =
   process.env.PROMPTFOO_CACHE_TYPE || (process.env.NODE_ENV === 'test' ? 'memory' : 'disk');
-function getCache() {
+export function getCache() {
   if (!cacheInstance) {
     const cachePath =
       process.env.PROMPTFOO_CACHE_PATH || path.join(getConfigDirectoryPath(), 'cache');
@@ -102,3 +102,7 @@ export async function clearCache() {
   logger.info('Clearing cache...');
   return getCache().reset();
 }
+export function isCacheEnabled() {
+  return enabled;
+}

package/src/evaluator.ts CHANGED Viewed

@@ -33,6 +33,7 @@ interface RunEvalOptions {
   rowIndex: number;
   colIndex: number;
+  repeatIndex: number;
 }
 const DEFAULT_MAX_CONCURRENCY = 4;
@@ -212,6 +213,13 @@ class Evaluator {
     // Split prompts by provider
     for (const prompt of testSuite.prompts) {
       for (const provider of testSuite.providers) {
+        // Check if providerPromptMap exists and if it contains the current prompt's display
+        if (testSuite.providerPromptMap) {
+          const allowedPrompts = testSuite.providerPromptMap[provider.id()];
+          if (allowedPrompts && !allowedPrompts.includes(prompt.display)) {
+            continue;
+          }
+        }
         const updatedDisplay =
           testSuite.providers.length > 1 ? `[${provider.id()}] ${prompt.display}` : prompt.display;
         prompts.push({
@@ -266,25 +274,37 @@ class Evaluator {
       // Finalize test case eval
       const varCombinations = generateVarCombinations(testCase.vars || {});
       totalVarCombinations += varCombinations.length;
-      for (const vars of varCombinations) {
-        let colIndex = 0;
-        for (const prompt of testSuite.prompts) {
-          for (const provider of testSuite.providers) {
-            runEvalOptions.push({
-              provider,
-              prompt: {
-                ...prompt,
-                raw: prependToPrompt + prompt.raw + appendToPrompt,
-              },
-              test: { ...testCase, vars },
-              includeProviderId: testSuite.providers.length > 1,
-              rowIndex,
-              colIndex,
-            });
-            colIndex++;
+      const numRepeat = this.options.repeat || 1;
+      for (let repeatIndex = 0; repeatIndex < numRepeat; repeatIndex++) {
+        for (const vars of varCombinations) {
+          let colIndex = 0;
+          for (const prompt of testSuite.prompts) {
+            for (const provider of testSuite.providers) {
+              if (testSuite.providerPromptMap) {
+                const allowedPrompts = testSuite.providerPromptMap[provider.id()];
+                if (allowedPrompts && !allowedPrompts.includes(prompt.display)) {
+                  // This prompt should not be used with this provider.
+                  continue;
+                }
+              }
+              runEvalOptions.push({
+                provider,
+                prompt: {
+                  ...prompt,
+                  raw: prependToPrompt + prompt.raw + appendToPrompt,
+                },
+                test: { ...testCase, vars },
+                includeProviderId: testSuite.providers.length > 1,
+                rowIndex,
+                colIndex,
+                repeatIndex,
+              });
+              colIndex++;
+            }
           }
+          rowIndex++;
         }
-        rowIndex++;
       }
     }

package/src/main.ts CHANGED Viewed

@@ -15,6 +15,7 @@ import {
   readConfig,
   readLatestResults,
   readPrompts,
+  readProviderPromptMap,
   readTests,
   writeLatestResults,
   writeOutput,
@@ -130,7 +131,7 @@ async function main() {
   program
     .command('share')
-    .description('Share your most recent result')
+    .description('Create a shareable URL of your most recent eval')
     .option('-y, --yes', 'Skip confirmation')
     .action(async (cmdObj: { yes: boolean } & Command) => {
       telemetry.maybeShowNotice();
@@ -158,10 +159,9 @@ async function main() {
         });
         reader.question(
-          'Are you sure you want to create a public URL? [y/N] ',
+          'Are you sure you want to create a shareable URL of your most recent eval? Anyone you give this URL to will be able to view the results [Y/n] ',
           async function (answer: string) {
-            if (answer.toLowerCase() !== 'yes' && answer.toLowerCase() !== 'y') {
-              logger.info('Did not create a public URL.');
+            if (answer.toLowerCase() !== 'yes' && answer.toLowerCase() !== 'y' && answer !== '') {
               reader.close();
               return;
             }
@@ -218,6 +218,13 @@ async function main() {
         ? String(defaultConfig.evaluateOptions.maxConcurrency)
         : undefined,
     )
+    .option(
+      '--repeat <number>',
+      'Number of times to run each test',
+      defaultConfig.evaluateOptions?.repeat
+        ? String(defaultConfig.evaluateOptions.repeat)
+        : undefined,
+    )
     .option(
       '--table-cell-max-length <number>',
       'Truncate console table cells to this length',
@@ -263,7 +270,6 @@ async function main() {
       }
       // Config parsing
-      const maxConcurrency = parseInt(cmdObj.maxConcurrency || '', 10);
       let fileConfig: Partial<UnifiedConfig> = {};
       const configPath = cmdObj.config;
       if (configPath) {
@@ -302,6 +308,7 @@ async function main() {
         config.tests,
         cmdObj.tests ? undefined : basePath,
       );
+      const parsedProviderPromptMap = readProviderPromptMap(config, parsedPrompts);
       if (parsedPrompts.length === 0) {
         logger.error(chalk.red('No prompts found'));
@@ -322,16 +329,20 @@ async function main() {
         description: config.description,
         prompts: parsedPrompts,
         providers: parsedProviders,
+        providerPromptMap: parsedProviderPromptMap,
         tests: parsedTests,
         defaultTest,
       };
+      const maxConcurrency = parseInt(cmdObj.maxConcurrency || '', 10);
+      const iterations = parseInt(cmdObj.repeat || '', 10);
       const options: EvaluateOptions = {
         showProgressBar:
           typeof cmdObj.progressBar === 'undefined'
             ? getLogLevel() !== 'debug'
             : cmdObj.progressBar,
         maxConcurrency: !isNaN(maxConcurrency) && maxConcurrency > 0 ? maxConcurrency : undefined,
+        repeat: !isNaN(iterations) && iterations > 0 ? iterations : 1,
         ...evaluateOptions,
       };

package/src/providers/azureopenai.ts CHANGED Viewed

@@ -1,6 +1,6 @@
 import logger from '../logger';
 import { fetchJsonWithCache } from '../cache';
-import { REQUEST_TIMEOUT_MS } from './shared';
+import { REQUEST_TIMEOUT_MS, parseChatPrompt } from './shared';
 import type { ApiProvider, ProviderEmbeddingResponse, ProviderResponse } from '../types.js';
@@ -205,23 +205,7 @@ export class AzureOpenAiChatCompletionProvider extends AzureOpenAiGenericProvide
       throw new Error('Azure OpenAI API host must be set');
     }
-    let messages: { role: string; content: string; name?: string }[];
-    try {
-      messages = JSON.parse(prompt) as { role: string; content: string }[];
-    } catch (err) {
-      const trimmedPrompt = prompt.trim();
-      if (
-        process.env.PROMPTFOO_REQUIRE_JSON_PROMPTS ||
-        trimmedPrompt.startsWith('{') ||
-        trimmedPrompt.startsWith('[')
-      ) {
-        throw new Error(
-          `Azure OpenAI Chat Completion prompt is not a valid JSON string: ${err}\n\n${prompt}`,
-        );
-      }
-      messages = [{ role: 'user', content: prompt }];
-    }
+    const messages = parseChatPrompt(prompt);
     const body = {
       model: this.deploymentName,
       messages: messages,

package/src/providers/localai.ts CHANGED Viewed

@@ -1,6 +1,6 @@
 import logger from '../logger';
 import { fetchJsonWithCache } from '../cache';
-import { REQUEST_TIMEOUT_MS } from './shared';
+import { REQUEST_TIMEOUT_MS, parseChatPrompt } from './shared';
 import type { ApiProvider, ProviderResponse } from '../types.js';
@@ -29,9 +29,10 @@ class LocalAiGenericProvider implements ApiProvider {
 export class LocalAiChatProvider extends LocalAiGenericProvider {
   async callApi(prompt: string): Promise<ProviderResponse> {
+    const messages = parseChatPrompt(prompt);
     const body = {
       model: this.modelName,
-      prompt,
+      messages: messages,
       temperature: process.env.LOCALAI_TEMPERATURE || 0.7,
     };
     logger.debug(`Calling LocalAI API: ${JSON.stringify(body)}`);

package/src/providers/openai.ts CHANGED Viewed

@@ -1,8 +1,7 @@
-import yaml from 'js-yaml';
 import logger from '../logger';
 import { fetchJsonWithCache } from '../cache';
-import { REQUEST_TIMEOUT_MS } from './shared';
+import { REQUEST_TIMEOUT_MS, parseChatPrompt } from './shared';
 import type { ApiProvider, ProviderEmbeddingResponse, ProviderResponse } from '../types.js';
@@ -10,6 +9,7 @@ const DEFAULT_OPENAI_HOST = 'api.openai.com';
 interface OpenAiCompletionOptions {
   temperature?: number;
+  max_tokens?: number;
   functions?: {
     name: string;
     description?: string;
@@ -148,7 +148,7 @@ export class OpenAiCompletionProvider extends OpenAiGenericProvider {
     const body = {
       model: this.modelName,
       prompt,
-      max_tokens: parseInt(process.env.OPENAI_MAX_TOKENS || '1024'),
+      max_tokens: options?.max_tokens ?? this.options.max_tokens ?? parseInt(process.env.OPENAI_MAX_TOKENS || '1024'),
       temperature:
         options?.temperature ??
         this.options.temperature ??
@@ -227,41 +227,11 @@ export class OpenAiChatCompletionProvider extends OpenAiGenericProvider {
       );
     }
-    let messages: { role: string; content: string; name?: string }[];
-    const trimmedPrompt = prompt.trim();
-    if (trimmedPrompt.startsWith('- role:')) {
-      try {
-        // Try YAML
-        messages = yaml.load(prompt) as { role: string; content: string }[];
-      } catch (err) {
-        throw new Error(
-          `OpenAI Chat Completion prompt is not a valid YAML string: ${err}\n\n${prompt}`,
-        );
-      }
-    } else {
-      try {
-        // Try JSON
-        messages = JSON.parse(prompt) as { role: string; content: string }[];
-      } catch (err) {
-        if (
-          process.env.PROMPTFOO_REQUIRE_JSON_PROMPTS ||
-          trimmedPrompt.startsWith('{') ||
-          trimmedPrompt.startsWith('[')
-        ) {
-          throw new Error(
-            `OpenAI Chat Completion prompt is not a valid JSON string: ${err}\n\n${prompt}`,
-          );
-        }
-        // Fall back to wrapping the prompt in a user message
-        messages = [{ role: 'user', content: prompt }];
-      }
-    }
+    const messages = parseChatPrompt(prompt);
     const body = {
       model: this.modelName,
       messages: messages,
-      max_tokens: parseInt(process.env.OPENAI_MAX_TOKENS || '1024'),
+      max_tokens: options?.max_tokens ?? this.options.max_tokens ?? parseInt(process.env.OPENAI_MAX_TOKENS || '1024'),
       temperature:
         options?.temperature ??
         this.options.temperature ??

package/src/providers/replicate.ts ADDED Viewed

@@ -0,0 +1,95 @@
+import Replicate from 'replicate';
+import fetch from 'node-fetch';
+import logger from '../logger';
+import { getCache, isCacheEnabled } from '../cache';
+import type { ApiProvider, ProviderResponse } from '../types.js';
+interface ReplicateCompletionOptions {
+  temperature?: number;
+  max_length?: number;
+  repetition_penalty?: number;
+}
+export class ReplicateProvider implements ApiProvider {
+  modelName: string;
+  apiKey?: string;
+  replicate: any;
+  options: ReplicateCompletionOptions;
+  constructor(modelName: string, apiKey?: string, options?: ReplicateCompletionOptions) {
+    this.modelName = modelName;
+    this.apiKey = apiKey || process.env.REPLICATE_API_TOKEN || process.env.REPLICATE_API_KEY;
+    this.options = options || {};
+  }
+  id(): string {
+    return `replicate:${this.modelName}`;
+  }
+  toString(): string {
+    return `[Replicate Provider ${this.modelName}]`;
+  }
+  async callApi(prompt: string): Promise<ProviderResponse> {
+    if (!this.apiKey) {
+      throw new Error(
+        'Replicate API key is not set. Set REPLICATE_API_TOKEN environment variable or pass it as an argument to the constructor.',
+      );
+    }
+    let cache;
+    let cacheKey;
+    if (isCacheEnabled()) {
+      cache = await getCache();
+      cacheKey = `replicate:${this.modelName}:${prompt}`;
+      // Try to get the cached response
+      const cachedResponse = await cache.get(cacheKey);
+      if (cachedResponse) {
+        logger.debug(`Returning cached response for ${prompt}: ${cachedResponse}`);
+        return JSON.parse(cachedResponse as string);
+      }
+    }
+    const replicate = new Replicate({
+      auth: this.apiKey,
+      fetch,
+    });
+    logger.debug(`Calling Replicate: ${prompt}`);
+    let response;
+    try {
+      const data = {
+        input: {
+          prompt,
+          max_length: this.options.max_length || parseInt(process.env.REPLICATE_MAX_LENGTH || '2046', 10),
+          temperature: this.options.temperature || parseFloat(process.env.REPLICATE_TEMPERATURE || '0.01'),
+          repetition_penalty: this.options.repetition_penalty || parseFloat(process.env.REPLICATE_REPETITION_PENALTY || '1.0'),
+        },
+      };
+      response = await replicate.run(this.modelName as any, data);
+    } catch (err) {
+      return {
+        error: `API call error: ${String(err)}`,
+      };
+    }
+    logger.debug(`\tReplicate API response: ${JSON.stringify(response)}`);
+    try {
+      const result = {
+        output: (response as string[]).join(''),
+        tokenUsage: {}, // TODO: add token usage once Replicate API supports it
+      };
+      if (cache && cacheKey) {
+        await cache.set(cacheKey, JSON.stringify(result));
+      }
+      return result;
+    } catch (err) {
+      return {
+        error: `API response error: ${String(err)}: ${JSON.stringify(response)}`,
+      };
+    }
+  }
+}

package/src/providers/shared.ts CHANGED Viewed

@@ -1,3 +1,32 @@
+import yaml from 'js-yaml';
 export const REQUEST_TIMEOUT_MS = process.env.REQUEST_TIMEOUT_MS
   ? parseInt(process.env.REQUEST_TIMEOUT_MS, 10)
   : 300_000;
+export function parseChatPrompt(prompt: string): { role: string; content: string; name?: string }[] {
+  const trimmedPrompt = prompt.trim();
+  if (trimmedPrompt.startsWith('- role:')) {
+    try {
+      // Try YAML
+      return yaml.load(prompt) as { role: string; content: string }[];
+    } catch (err) {
+      throw new Error(`Chat Completion prompt is not a valid YAML string: ${err}\n\n${prompt}`);
+    }
+  } else {
+    try {
+      // Try JSON
+      return JSON.parse(prompt) as { role: string; content: string }[];
+    } catch (err) {
+      if (
+        process.env.PROMPTFOO_REQUIRE_JSON_PROMPTS ||
+        trimmedPrompt.startsWith('{') ||
+        trimmedPrompt.startsWith('[')
+      ) {
+        throw new Error(`Chat Completion prompt is not a valid JSON string: ${err}\n\n${prompt}`);
+      }
+      // Fall back to wrapping the prompt in a user message
+      return [{ role: 'user', content: prompt }];
+    }
+  }
+}

package/src/providers.ts CHANGED Viewed

@@ -4,6 +4,7 @@ import { ApiProvider, ProviderConfig, ProviderId, RawProviderConfig } from './ty
 import { OpenAiCompletionProvider, OpenAiChatCompletionProvider } from './providers/openai';
 import { AnthropicCompletionProvider } from './providers/anthropic';
+import { ReplicateProvider } from './providers/replicate';
 import { LocalAiCompletionProvider, LocalAiChatProvider } from './providers/localai';
 import { ScriptCompletionProvider } from './providers/scriptCompletion';
 import {
@@ -106,6 +107,12 @@ export async function loadApiProvider(
         `Unknown Anthropic model type: ${modelType}. Use one of the following providers: anthropic:completion:<model name>`,
       );
     }
+  } else if (providerPath?.startsWith('replicate:')) {
+    // Load Replicate module
+    const options = providerPath.split(':');
+    const modelName = options.slice(1).join(':');
+    return new ReplicateProvider(modelName, undefined, context?.config);
   }
   if (providerPath?.startsWith('localai:')) {
@@ -131,6 +138,7 @@ export default {
   OpenAiCompletionProvider,
   OpenAiChatCompletionProvider,
   AnthropicCompletionProvider,
+  ReplicateProvider,
   LocalAiCompletionProvider,
   LocalAiChatProvider,
   loadApiProvider,

package/src/types.ts CHANGED Viewed

@@ -6,6 +6,7 @@ export interface CommandLineOptions {
   // Shared with EvaluateOptions
   maxConcurrency: string;
+  repeat: string;
   // Command line only
   vars?: string;
@@ -29,6 +30,7 @@ export interface CommandLineOptions {
 export interface ProviderConfig {
   id: ProviderId;
   config?: any;
+  prompts?: string[]; // List of prompt display strings
 }
 export interface ApiProvider {
@@ -75,6 +77,7 @@ export interface EvaluateOptions {
   maxConcurrency?: number;
   showProgressBar?: boolean;
   generateSuggestions?: boolean;
+  repeat?: number;
 }
 export interface Prompt {
@@ -201,6 +204,10 @@ export interface TestSuite {
   // One or more prompt strings
   prompts: Prompt[];
+  // Optional mapping of provider to prompt display strings.  If not provided,
+  // all prompts are used for all providers.
+  providerPromptMap?: Record<string, string[]>;
   // Test cases
   tests?: TestCase[];

package/src/util.ts CHANGED Viewed

@@ -25,8 +25,33 @@ import type {
   UnifiedConfig,
   TestCase,
   Prompt,
+  RawProviderConfig,
+  TestSuite,
 } from './types';
+export function readProviderPromptMap(config: Partial<UnifiedConfig>, parsedPrompts: Prompt[]): TestSuite["providerPromptMap"] {
+  const ret: Record<string, string[]> = {};
+  if (!config.providers) {
+    return ret;
+  }
+  const allPrompts = [];
+  for (const prompt of parsedPrompts) {
+    allPrompts.push(prompt.display);
+  }
+  for (const provider of config.providers) {
+    if (typeof provider === 'object') {
+      const rawProvider = provider as RawProviderConfig;
+      const id = Object.keys(rawProvider)[0];
+      ret[id] = rawProvider[id].prompts || allPrompts;
+    }
+  }
+  return ret;
+}
 const PROMPT_DELIMITER = '---';
 function parseJson(json: string): any | undefined {

package/src/web/client/src/App.tsx CHANGED Viewed

@@ -37,6 +37,12 @@ function App() {
     }
   };
+  React.useEffect(() => {
+    if (prefersDarkMode) {
+      document.documentElement.setAttribute('data-theme', 'dark');
+    }
+  }, [prefersDarkMode]);
   React.useEffect(() => {
     const fetchEvalData = async (id: string) => {
       if (loadedFromApi.current) {

package/src/web/client/src/EvalOutputPromptDialog.tsx CHANGED Viewed

@@ -37,7 +37,7 @@ export default function EvalOutputPromptDialog({
     <Dialog open={open} onClose={onClose} fullWidth maxWidth="lg">
       <DialogTitle>Prompt</DialogTitle>
       <DialogContent>
-        <TextareaAutosize readOnly value={prompt} style={{ width: '100%' }} />
+        <TextareaAutosize readOnly value={prompt} style={{ width: '100%', padding: '0.75rem' }} />
         <IconButton
           onClick={() => copyToClipboard(prompt)}
           style={{ position: 'absolute', right: '10px', top: '10px' }}
@@ -49,7 +49,11 @@ export default function EvalOutputPromptDialog({
         <>
           <DialogTitle>Output</DialogTitle>
           <DialogContent>
-            <TextareaAutosize readOnly value={output} style={{ width: '100%' }} />
+            <TextareaAutosize
+              readOnly
+              value={output}
+              style={{ width: '100%', padding: '0.75rem' }}
+            />
           </DialogContent>
         </>
       )}

package/src/web/client/src/ResultsTable.tsx CHANGED Viewed

@@ -334,6 +334,11 @@ export default function ResultsTable({
           return failureFilter[columnId] && isFail;
         });
       });
+    } else if (filterMode === 'different') {
+      return body.filter((row) => {
+        // TODO(ian): This works for strings, but not objects.
+        return !row.outputs.every((output) => output.text === row.outputs[0].text);
+      });
     }
     return body;
   }, [body, failureFilter, filterMode]);

package/src/web/client/src/ResultsView.tsx CHANGED Viewed

@@ -181,7 +181,8 @@ export default function ResultsView() {
                 label="Filter"
               >
                 <MenuItem value="all">Show all results</MenuItem>
-                <MenuItem value="failures">Show only failures</MenuItem>
+                <MenuItem value="failures">Show failures only</MenuItem>
+                <MenuItem value="different">Show different only</MenuItem>
               </Select>
             </FormControl>
           </Box>

package/src/web/client/src/index.css CHANGED Viewed

@@ -21,19 +21,8 @@
 }
 /* Dark mode colors */
-@media (prefers-color-scheme: dark) {
-  :root {
-    --background-color: #1a1a1a;
-    --text-color: #f0f0f0;
-    --border-color: #444444;
-    --table-border-color: #444444;
-    --pass-color: #4caf50;
-    --fail-color: #f44336;
-    --smalltext-color: #888888;
-  }
-}
 [data-theme='dark'] {
+  /* Keep synced with prefers-color-scheme above */
   --background-color: #1a1a1a;
   --text-color: #f0f0f0;
   --border-color: #444444;