npm - promptfoo - Versions diffs - 0.9.0 → 0.11.0 - Mend

promptfoo 0.9.0 → 0.11.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (57) hide show

package/README.md +50 -40
package/dist/assertions.d.ts +2 -2
package/dist/assertions.d.ts.map +1 -1
package/dist/assertions.js +186 -44
package/dist/assertions.js.map +1 -1
package/dist/cache.js +9 -9
package/dist/cache.js.map +1 -1
package/dist/evaluator.d.ts +1 -1
package/dist/evaluator.d.ts.map +1 -1
package/dist/evaluator.js +30 -23
package/dist/evaluator.js.map +1 -1
package/dist/index.d.ts +10 -10
package/dist/index.d.ts.map +1 -1
package/dist/index.js +18 -14
package/dist/index.js.map +1 -1
package/dist/main.js +49 -44
package/dist/main.js.map +1 -1
package/dist/providers/localai.js +11 -11
package/dist/providers/localai.js.map +1 -1
package/dist/providers/openai.d.ts.map +1 -1
package/dist/providers/openai.js +30 -21
package/dist/providers/openai.js.map +1 -1
package/dist/providers.d.ts +3 -3
package/dist/providers.d.ts.map +1 -1
package/dist/providers.js +15 -15
package/dist/providers.js.map +1 -1
package/dist/types.d.ts +7 -3
package/dist/types.d.ts.map +1 -1
package/dist/util.d.ts +4 -4
package/dist/util.d.ts.map +1 -1
package/dist/util.js +49 -18
package/dist/util.js.map +1 -1
package/dist/web/client/assets/index-15dfcd18.js +172 -0
package/dist/web/client/assets/index-87905193.css +1 -0
package/dist/web/client/index.html +2 -2
package/dist/web/server.js +9 -9
package/dist/web/server.js.map +1 -1
package/package.json +3 -1
package/src/assertions.ts +249 -38
package/src/cache.ts +2 -2
package/src/evaluator.ts +25 -18
package/src/index.ts +13 -8
package/src/main.ts +28 -15
package/src/providers/localai.ts +3 -3
package/src/providers/openai.ts +16 -8
package/src/providers.ts +3 -3
package/src/types.ts +24 -3
package/src/util.ts +48 -17
package/src/web/client/package-lock.json +5729 -0
package/src/web/client/src/ResultsTable.css +35 -4
package/src/web/client/src/ResultsTable.tsx +150 -70
package/src/web/client/src/ResultsView.tsx +83 -18
package/src/web/client/src/index.css +6 -0
package/src/web/client/src/types.ts +2 -0
package/src/web/server.ts +3 -3
package/dist/web/client/assets/index-207192fc.css +0 -1
package/dist/web/client/assets/index-8751749f.js +0 -172

package/dist/web/client/assets/index-87905193.css ADDED Viewed

@@ -0,0 +1 @@

+ :root{font-family:system-ui,Avenir,Helvetica,Arial,sans-serif;font-synthesis:none;text-rendering:optimizeLegibility;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale;-webkit-text-size-adjust:100%;--background-color: #ffffff;--text-color: #404040;--border-color: lightgray;--table-border-color: lightgray;--pass-color: green;--fail-color: #ad0000;--smalltext-color: gray;--success-background-color: #d1ffd7;--variable-background-color: #f7f7f7;--header-background-color: #fffdf7}@media (prefers-color-scheme: dark){:root{--background-color: #1a1a1a;--text-color: #f0f0f0;--border-color: #444444;--table-border-color: #444444;--pass-color: #4caf50;--fail-color: #f44336;--smalltext-color: #888888}}[data-theme=dark]{--background-color: #1a1a1a;--text-color: #f0f0f0;--border-color: #444444;--table-border-color: #444444;--pass-color: #4caf50;--fail-color: #f44336;--smalltext-color: #888888;--success-background-color: #216d2b;--variable-background-color: #333;--header-background-color: #333}html{font-size:calc(14px + (18 - 14) * ((100vw - 300px) / (1600 - 300)))}*{box-sizing:border-box}html{font-family:-apple-system,BlinkMacSystemFont,Segoe UI,Helvetica,Arial,sans-serif,"Apple Color Emoji","Segoe UI Emoji",Segoe UI Symbol;font-size:16px;background-color:var(--background-color);color:var(--text-color)}table,.divTable{border:1px solid var(--table-border-color);border-collapse:collapse;width:100%;margin:1rem 0;box-shadow:0 2px 4px #0000001a}.tr{display:flex}tr,.tr{width:fit-content}tr:hover,.tr:hover{background-color:#0000000d}th,.th,td,.td{position:relative;box-shadow:inset 0 0 0 1px var(--border-color);vertical-align:top;padding:1.5rem}th.variable,.th.variable,td.variable,.td.variable{background-color:var(--variable-background-color)}tr.header{background-color:var(--header-background-color)}th,.th{padding:1rem;position:relative;text-align:center;vertical-align:bottom}tr .cell-rating{visibility:hidden;position:absolute;bottom:1.25rem;right:0;line-height:0;font-size:1.75rem}tr:hover .cell-rating{visibility:visible}tr .cell-rating .rating{cursor:pointer}tr .cell-rating .rating:first-child{margin-right:.5rem}th .smalltext{visibility:hidden;font-weight:400;font-size:.75rem;color:var(--smalltext-color)}th:hover .smalltext{visibility:visible}th .summary{font-weight:400;font-size:.8rem;padding:.25rem}th .summary.highlight{background-color:var(--success-background-color)}td .status{margin-bottom:.5rem;font-weight:700}td .pass{color:var(--pass-color)}td .fail{color:var(--fail-color)}.first-prompt-col{border-left:2px solid #888}.first-prompt-row{border-top:2px solid #888}.resizer{position:absolute;right:0;top:0;height:100%;width:5px;cursor:col-resize;user-select:none;touch-action:none;background:var(--text-color);opacity:.5}.resizer.isResizing{background:var(--text-color);opacity:1}@media (hover: hover){.resizer{opacity:0}*:hover>.resizer{opacity:1}}.logo{display:flex;align-items:center;gap:4px}.logo img{width:30px}.logo span{margin-bottom:6px;color:var(--text-color)}[data-theme=dark] .logo img{filter:invert(1)}nav{display:flex;justify-content:space-between;align-items:center;margin-bottom:1rem;color:var(--text-color)}.dark-mode-toggle{background-color:transparent;border:none;color:var(--text-color);cursor:pointer;font-size:16px;padding:8px;transition:color .3s}.dark-mode-toggle:hover{color:var(--pass-color)}body{background-color:var(--background-color);color:var(--text-color)}

package/dist/web/client/index.html CHANGED Viewed

@@ -5,8 +5,8 @@
     <link rel="icon" type="image/svg+xml" href="favicon.ico" />
     <meta name="viewport" content="width=device-width, initial-scale=1.0" />
     <title>promptfoo web viewer</title>
-    <script type="module" crossorigin src="/assets/index-8751749f.js"></script>
-    <link rel="stylesheet" href="/assets/index-207192fc.css">
+    <script type="module" crossorigin src="/assets/index-15dfcd18.js"></script>
+    <link rel="stylesheet" href="/assets/index-87905193.css">
   </head>
   <body>
     <div id="root"></div>

package/dist/web/server.js CHANGED Viewed

@@ -13,12 +13,12 @@ const express_1 = __importDefault(require("express"));
 const cors_1 = __importDefault(require("cors"));
 const opener_1 = __importDefault(require("opener"));
 const socket_io_1 = require("socket.io");
-const logger_js_1 = __importDefault(require("../logger.js"));
-const esm_js_1 = require("../esm.js");
-const util_js_1 = require("../util.js");
+const logger_1 = __importDefault(require("../logger"));
+const esm_1 = require("../esm");
+const util_1 = require("../util");
 function init(port = 15500) {
     const app = (0, express_1.default)();
-    const staticDir = node_path_1.default.join((0, esm_js_1.getDirectory)(), 'web', 'client');
+    const staticDir = node_path_1.default.join((0, esm_1.getDirectory)(), 'web', 'client');
     app.use((0, cors_1.default)());
     app.use(express_1.default.json());
     app.use(express_1.default.static(staticDir));
@@ -28,7 +28,7 @@ function init(port = 15500) {
             origin: '*',
         },
     });
-    const latestJsonPath = (0, util_js_1.getLatestResultsPath)();
+    const latestJsonPath = (0, util_1.getLatestResultsPath)();
     const readLatestJson = () => {
         const data = fs_1.default.readFileSync(latestJsonPath, 'utf8');
         const jsonData = JSON.parse(data);
@@ -46,7 +46,7 @@ function init(port = 15500) {
     });
     httpServer.listen(port, () => {
         const url = `http://localhost:${port}`;
-        logger_js_1.default.info(`Server listening at ${url}`);
+        logger_1.default.info(`Server listening at ${url}`);
         const rl = node_readline_1.default.createInterface({
             input: process.stdin,
             output: process.stdout,
@@ -55,14 +55,14 @@ function init(port = 15500) {
             if (answer.toLowerCase().startsWith('y')) {
                 try {
                     await (0, opener_1.default)(url);
-                    logger_js_1.default.info(`Opening browser to: ${url}`);
+                    logger_1.default.info(`Opening browser to: ${url}`);
                 }
                 catch (err) {
-                    logger_js_1.default.error(`Failed to open browser: ${String(err)}`);
+                    logger_1.default.error(`Failed to open browser: ${String(err)}`);
                 }
             }
             rl.close();
-            logger_js_1.default.info('Press Ctrl+C to stop the server');
+            logger_1.default.info('Press Ctrl+C to stop the server');
         });
     });
 }

package/dist/web/server.js.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"server.js","sourceRoot":"","sources":["../../src/web/server.ts"],"names":[],"mappings":";;;;;;AAAA,4CAAoB;AACpB,0DAA6B;AAC7B,kEAAqC;AACrC,0DAA6B;AAE7B,wDAAgC;AAChC,sDAA8B;AAC9B,gDAAwB;AACxB,oDAA4B;AAC5B,yCAAqD;AAGrD,~~6DAAkC~~;~~AAClC~~,~~sCAAyC~~;~~AACzC~~,~~wCAAkD~~;~~AAIlD~~,SAAgB,IAAI,CAAC,IAAI,GAAG,KAAK;IAC/B,MAAM,GAAG,GAAG,IAAA,iBAAO,GAAE,CAAC;IAEtB,MAAM,SAAS,GAAG,mBAAI,CAAC,IAAI,CAAC,IAAA,~~qBAAY~~,GAAE,EAAE,KAAK,EAAE,QAAQ,CAAC,CAAC;IAE7D,GAAG,CAAC,GAAG,CAAC,IAAA,cAAI,GAAE,CAAC,CAAC;IAChB,GAAG,CAAC,GAAG,CAAC,iBAAO,CAAC,IAAI,EAAE,CAAC,CAAC;IACxB,GAAG,CAAC,GAAG,CAAC,iBAAO,CAAC,MAAM,CAAC,SAAS,CAAC,CAAC,CAAC;IAEnC,MAAM,UAAU,GAAG,mBAAI,CAAC,YAAY,CAAC,GAAG,CAAC,CAAC;IAC1C,MAAM,EAAE,GAAG,IAAI,kBAAc,CAAC,UAAU,EAAE;QACxC,IAAI,EAAE;YACJ,MAAM,EAAE,GAAG;SACZ;KACF,CAAC,CAAC;IAEH,MAAM,cAAc,GAAG,IAAA,~~8BAAoB~~,GAAE,CAAC;IAC9C,MAAM,cAAc,GAAG,GAAG,EAAE;QAC1B,MAAM,IAAI,GAAG,YAAE,CAAC,YAAY,CAAC,cAAc,EAAE,MAAM,CAAC,CAAC;QACrD,MAAM,QAAQ,GAAG,IAAI,CAAC,KAAK,CAAC,IAAI,CAAC,CAAC;QAClC,OAAO,QAAQ,CAAC,KAAK,CAAC;IACxB,CAAC,CAAC;IAEF,EAAE,CAAC,EAAE,CAAC,YAAY,EAAE,CAAC,MAAM,EAAE,EAAE;QAC7B,qDAAqD;QACrD,MAAM,CAAC,IAAI,CAAC,MAAM,EAAE,EAAE,KAAK,EAAE,cAAc,EAAE,EAAE,CAAC,CAAC;QAEjD,6DAA6D;QAC7D,YAAE,CAAC,KAAK,CACN,cAAc,EACd,IAAA,kBAAQ,EAAC,CAAC,KAAa,EAAE,EAAE;YACzB,IAAI,KAAK,KAAK,QAAQ,EAAE;gBACtB,MAAM,CAAC,IAAI,CAAC,QAAQ,EAAE,EAAE,KAAK,EAAE,cAAc,EAAE,EAAE,CAAC,CAAC;aACpD;QACH,CAAC,EAAE,GAAG,CAAC,CACR,CAAC;IACJ,CAAC,CAAC,CAAC;IAEH,UAAU,CAAC,MAAM,CAAC,IAAI,EAAE,GAAG,EAAE;QAC3B,MAAM,GAAG,GAAG,oBAAoB,IAAI,EAAE,CAAC;QACvC,~~mBAAM~~,CAAC,IAAI,CAAC,uBAAuB,GAAG,EAAE,CAAC,CAAC;QAE1C,MAAM,EAAE,GAAG,uBAAQ,CAAC,eAAe,CAAC;YAClC,KAAK,EAAE,OAAO,CAAC,KAAK;YACpB,MAAM,EAAE,OAAO,CAAC,MAAM;SACvB,CAAC,CAAC;QACH,EAAE,CAAC,QAAQ,CAAC,qDAAqD,EAAE,KAAK,EAAE,MAAM,EAAE,EAAE;YAClF,IAAI,MAAM,CAAC,WAAW,EAAE,CAAC,UAAU,CAAC,GAAG,CAAC,EAAE;gBACxC,IAAI;oBACF,MAAM,IAAA,gBAAM,EAAC,GAAG,CAAC,CAAC;oBAClB,~~mBAAM~~,CAAC,IAAI,CAAC,uBAAuB,GAAG,EAAE,CAAC,CAAC;iBAC3C;gBAAC,OAAO,GAAG,EAAE;oBACZ,~~mBAAM~~,CAAC,KAAK,CAAC,2BAA2B,MAAM,CAAC,GAAG,CAAC,EAAE,CAAC,CAAC;iBACxD;aACF;YACD,EAAE,CAAC,KAAK,EAAE,CAAC;YACX,~~mBAAM~~,CAAC,IAAI,CAAC,iCAAiC,CAAC,CAAC;QACjD,CAAC,CAAC,CAAC;IACL,CAAC,CAAC,CAAC;AACL,CAAC;AA3DD,oBA2DC"}
1	+ {"version":3,"file":"server.js","sourceRoot":"","sources":["../../src/web/server.ts"],"names":[],"mappings":";;;;;;AAAA,4CAAoB;AACpB,0DAA6B;AAC7B,kEAAqC;AACrC,0DAA6B;AAE7B,wDAAgC;AAChC,sDAA8B;AAC9B,gDAAwB;AACxB,oDAA4B;AAC5B,yCAAqD;AAGrD,uDAA+B;AAC/B,gCAAsC;AACtC,kCAA+C;AAI/C,SAAgB,IAAI,CAAC,IAAI,GAAG,KAAK;IAC/B,MAAM,GAAG,GAAG,IAAA,iBAAO,GAAE,CAAC;IAEtB,MAAM,SAAS,GAAG,mBAAI,CAAC,IAAI,CAAC,IAAA,kBAAY,GAAE,EAAE,KAAK,EAAE,QAAQ,CAAC,CAAC;IAE7D,GAAG,CAAC,GAAG,CAAC,IAAA,cAAI,GAAE,CAAC,CAAC;IAChB,GAAG,CAAC,GAAG,CAAC,iBAAO,CAAC,IAAI,EAAE,CAAC,CAAC;IACxB,GAAG,CAAC,GAAG,CAAC,iBAAO,CAAC,MAAM,CAAC,SAAS,CAAC,CAAC,CAAC;IAEnC,MAAM,UAAU,GAAG,mBAAI,CAAC,YAAY,CAAC,GAAG,CAAC,CAAC;IAC1C,MAAM,EAAE,GAAG,IAAI,kBAAc,CAAC,UAAU,EAAE;QACxC,IAAI,EAAE;YACJ,MAAM,EAAE,GAAG;SACZ;KACF,CAAC,CAAC;IAEH,MAAM,cAAc,GAAG,IAAA,2BAAoB,GAAE,CAAC;IAC9C,MAAM,cAAc,GAAG,GAAG,EAAE;QAC1B,MAAM,IAAI,GAAG,YAAE,CAAC,YAAY,CAAC,cAAc,EAAE,MAAM,CAAC,CAAC;QACrD,MAAM,QAAQ,GAAG,IAAI,CAAC,KAAK,CAAC,IAAI,CAAC,CAAC;QAClC,OAAO,QAAQ,CAAC,KAAK,CAAC;IACxB,CAAC,CAAC;IAEF,EAAE,CAAC,EAAE,CAAC,YAAY,EAAE,CAAC,MAAM,EAAE,EAAE;QAC7B,qDAAqD;QACrD,MAAM,CAAC,IAAI,CAAC,MAAM,EAAE,EAAE,KAAK,EAAE,cAAc,EAAE,EAAE,CAAC,CAAC;QAEjD,6DAA6D;QAC7D,YAAE,CAAC,KAAK,CACN,cAAc,EACd,IAAA,kBAAQ,EAAC,CAAC,KAAa,EAAE,EAAE;YACzB,IAAI,KAAK,KAAK,QAAQ,EAAE;gBACtB,MAAM,CAAC,IAAI,CAAC,QAAQ,EAAE,EAAE,KAAK,EAAE,cAAc,EAAE,EAAE,CAAC,CAAC;aACpD;QACH,CAAC,EAAE,GAAG,CAAC,CACR,CAAC;IACJ,CAAC,CAAC,CAAC;IAEH,UAAU,CAAC,MAAM,CAAC,IAAI,EAAE,GAAG,EAAE;QAC3B,MAAM,GAAG,GAAG,oBAAoB,IAAI,EAAE,CAAC;QACvC,gBAAM,CAAC,IAAI,CAAC,uBAAuB,GAAG,EAAE,CAAC,CAAC;QAE1C,MAAM,EAAE,GAAG,uBAAQ,CAAC,eAAe,CAAC;YAClC,KAAK,EAAE,OAAO,CAAC,KAAK;YACpB,MAAM,EAAE,OAAO,CAAC,MAAM;SACvB,CAAC,CAAC;QACH,EAAE,CAAC,QAAQ,CAAC,qDAAqD,EAAE,KAAK,EAAE,MAAM,EAAE,EAAE;YAClF,IAAI,MAAM,CAAC,WAAW,EAAE,CAAC,UAAU,CAAC,GAAG,CAAC,EAAE;gBACxC,IAAI;oBACF,MAAM,IAAA,gBAAM,EAAC,GAAG,CAAC,CAAC;oBAClB,gBAAM,CAAC,IAAI,CAAC,uBAAuB,GAAG,EAAE,CAAC,CAAC;iBAC3C;gBAAC,OAAO,GAAG,EAAE;oBACZ,gBAAM,CAAC,KAAK,CAAC,2BAA2B,MAAM,CAAC,GAAG,CAAC,EAAE,CAAC,CAAC;iBACxD;aACF;YACD,EAAE,CAAC,KAAK,EAAE,CAAC;YACX,gBAAM,CAAC,IAAI,CAAC,iCAAiC,CAAC,CAAC;QACjD,CAAC,CAAC,CAAC;IACL,CAAC,CAAC,CAAC;AACL,CAAC;AA3DD,oBA2DC"}

package/package.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "name": "promptfoo",
   "description": "Prompt engineering toolkit",
   "author": "Ian Webster",
-  "version": "0.9.0",
+  "version": "0.11.0",
   "license": "MIT",
   "type": "commonjs",
   "main": "dist/index.js",
@@ -59,6 +59,7 @@
     "typescript": "^5.0.4"
   },
   "dependencies": {
+    "@apidevtools/json-schema-ref-parser": "^10.1.0",
     "async": "^3.2.4",
     "cache-manager": "^4.1.0",
     "cache-manager-fs-hash": "^1.0.0",
@@ -76,6 +77,7 @@
     "node-fetch": "^2.6.7",
     "nunjucks": "^3.2.4",
     "opener": "^1.5.2",
+    "rouge": "^1.0.3",
     "socket.io": "^4.6.1",
     "tiny-invariant": "^1.3.1",
     "winston": "^3.8.2"

package/src/assertions.ts CHANGED Viewed

@@ -1,17 +1,49 @@
+import rouge from 'rouge';
 import invariant from 'tiny-invariant';
 import nunjucks from 'nunjucks';
-import { DefaultEmbeddingProvider, DefaultGradingProvider } from './providers/openai.js';
-import { cosineSimilarity } from './util.js';
-import { loadApiProvider } from './providers.js';
-import { DEFAULT_GRADING_PROMPT } from './prompts.js';
+import { DefaultEmbeddingProvider, DefaultGradingProvider } from './providers/openai';
+import { cosineSimilarity, fetchWithTimeout } from './util';
+import { loadApiProvider } from './providers';
+import { DEFAULT_GRADING_PROMPT } from './prompts';
-import type { Assertion, GradingConfig, TestCase, GradingResult, AtomicTestCase } from './types.js';
+import type {
+  Assertion,
+  AssertionType,
+  GradingConfig,
+  GradingResult,
+  AtomicTestCase,
+} from './types';
 const SIMILAR_REGEX = /similar(?::|\((\d+(\.\d+)?)\):)/;
 const DEFAULT_SEMANTIC_SIMILARITY_THRESHOLD = 0.8;
+function handleRougeScore(
+  baseType: 'rouge-n',
+  assertion: Assertion,
+  expected: string | string[],
+  output: string,
+  inverted: boolean,
+): GradingResult {
+  const fnName = baseType[baseType.length - 1] as 'n' | 'l' | 's';
+  const rougeMethod = rouge[fnName];
+  const score = rougeMethod(output, expected);
+  console.log(output, expected, score);
+  const pass = score >= (assertion.threshold || 0.75) != inverted;
+  return {
+    pass,
+    reason: pass
+      ? `${baseType.toUpperCase()} score ${score} is greater than or equal to threshold ${
+          assertion.threshold || 0.75
+        }`
+      : `${baseType.toUpperCase()} score ${score} is less than threshold ${
+          assertion.threshold || 0.75
+        }`,
+  };
+}
 export async function runAssertions(test: AtomicTestCase, output: string): Promise<GradingResult> {
   const tokensUsed = {
     total: 0,
@@ -46,7 +78,12 @@ export async function runAssertion(
 ): Promise<GradingResult> {
   let pass: boolean = false;
-  if (assertion.type === 'equals') {
+  invariant(assertion.type, `Assertion must have a type: ${JSON.stringify(assertion)}`);
+  const inverse = assertion.type.startsWith('not-');
+  const baseType = inverse ? assertion.type.slice(4) : assertion.type;
+  if (baseType === 'equals') {
     pass = assertion.value === output;
     return {
       pass,
@@ -54,52 +91,194 @@ export async function runAssertion(
     };
   }
-  if (assertion.type === 'is-json') {
+  if (baseType === 'is-json') {
     try {
       JSON.parse(output);
-      return { pass: true, reason: 'Assertion passed' };
+      pass = !inverse;
     } catch (err) {
-      return {
-        pass: false,
-        reason: `Expected output to be valid JSON, but it isn't.\nError: ${err}`,
-      };
+      pass = inverse;
     }
+    return { pass, reason: pass ? 'Assertion passed' : 'Expected output to be valid JSON' };
+  }
+  if (baseType === 'contains') {
+    invariant(assertion.value, '"contains" assertion type must have a string value');
+    invariant(
+      typeof assertion.value === 'string',
+      '"contains" assertion type must have a string value',
+    );
+    pass = output.includes(assertion.value) !== inverse;
+    return {
+      pass,
+      reason: pass
+        ? 'Assertion passed'
+        : `Expected output to ${inverse ? 'not ' : ''}contain "${assertion.value}"`,
+    };
+  }
+  if (baseType === 'contains-any') {
+    invariant(assertion.value, '"contains-any" assertion type must have a value');
+    invariant(
+      Array.isArray(assertion.value),
+      '"contains-any" assertion type must have an array value',
+    );
+    pass = assertion.value.some((value) => output.includes(value)) !== inverse;
+    return {
+      pass,
+      reason: pass
+        ? 'Assertion passed'
+        : `Expected output to ${inverse ? 'not ' : ''}contain one of "${assertion.value.join(
+            ', ',
+          )}"`,
+    };
   }
-  if (assertion.type === 'contains-json') {
-    const pass = containsJSON(output);
+  if (baseType === 'contains-all') {
+    invariant(assertion.value, '"contains-all" assertion type must have a value');
+    invariant(
+      Array.isArray(assertion.value),
+      '"contains-all" assertion type must have an array value',
+    );
+    pass = assertion.value.every((value) => output.includes(value)) !== inverse;
+    return {
+      pass,
+      reason: pass
+        ? 'Assertion passed'
+        : `Expected output to ${inverse ? 'not ' : ''}contain all of "${assertion.value.join(
+            ', ',
+          )}"`,
+    };
+  }
+  if (baseType === 'regex') {
+    invariant(assertion.value, '"regex" assertion type must have a string value');
+    invariant(
+      typeof assertion.value === 'string',
+      '"contains" assertion type must have a string value',
+    );
+    const regex = new RegExp(assertion.value);
+    pass = regex.test(output) !== inverse;
+    return {
+      pass,
+      reason: pass
+        ? 'Assertion passed'
+        : `Expected output to ${inverse ? 'not ' : ''}match regex "${assertion.value}"`,
+    };
+  }
+  if (baseType === 'icontains') {
+    invariant(assertion.value, '"icontains" assertion type must have a string value');
+    invariant(
+      typeof assertion.value === 'string',
+      '"icontains" assertion type must have a string value',
+    );
+    pass = output.toLowerCase().includes(assertion.value.toLowerCase()) !== inverse;
+    return {
+      pass,
+      reason: pass
+        ? 'Assertion passed'
+        : `Expected output to ${inverse ? 'not ' : ''}contain "${assertion.value}"`,
+    };
+  }
+  if (baseType === 'contains-json') {
+    pass = containsJSON(output) !== inverse;
     return {
       pass,
-      reason: pass ? 'Assertion passed' : 'Expected output to contain valid JSON',
+      reason: pass
+        ? 'Assertion passed'
+        : `Expected output to ${inverse ? 'not ' : ''}contain valid JSON`,
     };
   }
-  if (assertion.type === 'javascript') {
+  if (baseType === 'javascript') {
     try {
-      const customFunction = new Function('output', `return ${assertion.value}`);
-      pass = customFunction(output);
+      const customFunction = new Function('output', 'context', `return ${assertion.value}`);
+      const context = {
+        vars: test.vars || {},
+      };
+      pass = customFunction(output, context) !== inverse;
     } catch (err) {
       return {
         pass: false,
-        reason: `Custom function threw error: ${(err as Error).message}`,
+        reason: `Custom function threw error: ${(err as Error).message}
+${assertion.value}`,
       };
     }
     return {
       pass,
-      reason: pass ? 'Assertion passed' : `Custom function returned false`,
+      reason: pass
+        ? 'Assertion passed'
+        : `Custom function returned ${inverse ? 'true' : 'false'}
+${assertion.value}`,
     };
   }
-  if (assertion.type === 'similar') {
+  if (baseType === 'similar') {
     invariant(assertion.value, 'Similarity assertion must have a string value');
-    return matchesSimilarity(assertion.value, output, assertion.threshold || 0.75);
+    invariant(
+      typeof assertion.value === 'string',
+      '"contains" assertion type must have a string value',
+    );
+    return matchesSimilarity(assertion.value, output, assertion.threshold || 0.75, inverse);
   }
-  if (assertion.type === 'llm-rubric') {
+  if (baseType === 'llm-rubric') {
     invariant(assertion.value, 'Similarity assertion must have a string value');
+    invariant(
+      typeof assertion.value === 'string',
+      '"contains" assertion type must have a string value',
+    );
     return matchesLlmRubric(assertion.value, output, test.options);
   }
+  if (baseType === 'webhook') {
+    invariant(assertion.value, '"webhook" assertion type must have a URL value');
+    invariant(
+      typeof assertion.value === 'string',
+      '"webhook" assertion type must have a URL value',
+    );
+    try {
+      const context = {
+        vars: test.vars || {},
+      };
+      const response = await fetchWithTimeout(
+        assertion.value,
+        {
+          method: 'POST',
+          headers: {
+            'Content-Type': 'application/json',
+          },
+          body: JSON.stringify({ output, context }),
+        },
+        process.env.WEBHOOK_TIMEOUT ? parseInt(process.env.WEBHOOK_TIMEOUT, 10) : 5000,
+      );
+      if (!response.ok) {
+        throw new Error(`Webhook response status: ${response.status}`);
+      }
+      const jsonResponse = await response.json();
+      pass = jsonResponse.pass !== inverse;
+    } catch (err) {
+      return {
+        pass: false,
+        reason: `Webhook error: ${(err as Error).message}`,
+      };
+    }
+    return {
+      pass,
+      reason: pass ? 'Assertion passed' : `Webhook returned ${inverse ? 'true' : 'false'}`,
+    };
+  }
+  if (baseType === 'rouge-n') {
+    invariant(assertion.value, '"rouge" assertion type must a value (string or string array)');
+    return handleRougeScore(baseType, assertion, assertion.value, output, inverse);
+  }
   throw new Error('Unknown assertion type: ' + assertion.type);
 }
@@ -125,6 +304,7 @@ export async function matchesSimilarity(
   expected: string,
   output: string,
   threshold: number,
+  inverse: boolean = false,
 ): Promise<GradingResult> {
   const expectedEmbedding = await DefaultEmbeddingProvider.callEmbeddingApi(expected);
   const outputEmbedding = await DefaultEmbeddingProvider.callEmbeddingApi(output);
@@ -155,16 +335,19 @@ export async function matchesSimilarity(
   }
   const similarity = cosineSimilarity(expectedEmbedding.embedding, outputEmbedding.embedding);
-  if (similarity < threshold) {
+  const pass = inverse ? similarity <= threshold : similarity >= threshold;
+  const greaterThanReason = `Similarity ${similarity} is greater than threshold ${threshold}`;
+  const lessThanReason = `Similarity ${similarity} is less than threshold ${threshold}`;
+  if (pass) {
     return {
-      pass: false,
-      reason: `Similarity ${similarity} is less than threshold ${threshold}`,
+      pass: true,
+      reason: inverse ? lessThanReason : greaterThanReason,
       tokensUsed,
     };
   }
   return {
-    pass: true,
-    reason: `Similarity ${similarity} is greater than threshold ${threshold}`,
+    pass: false,
+    reason: inverse ? greaterThanReason : lessThanReason,
     tokensUsed,
   };
 }
@@ -224,16 +407,7 @@ export async function matchesLlmRubric(
 }
 export function assertionFromString(expected: string): Assertion {
-  const match = expected.match(SIMILAR_REGEX);
-  if (match) {
-    const threshold = parseFloat(match[1]) || DEFAULT_SEMANTIC_SIMILARITY_THRESHOLD;
-    const rest = expected.replace(SIMILAR_REGEX, '').trim();
-    return {
-      type: 'similar',
-      value: rest,
-      threshold,
-    };
-  }
+  // Legacy options
   if (expected.startsWith('fn:') || expected.startsWith('eval:')) {
     // TODO(1.0): delete eval: legacy option
     const sliceLength = expected.startsWith('fn:') ? 'fn:'.length : 'eval:'.length;
@@ -249,11 +423,48 @@ export function assertionFromString(expected: string): Assertion {
       value: expected.slice(6),
     };
   }
+  // New options
+  const assertionRegex =
+    /^(not-)?(equals|contains|contains-any|contains-all|regex|icontains):(.+)$/;
+  const regexMatch = expected.match(assertionRegex);
+  if (regexMatch) {
+    const [_, notPrefix, type, value] = regexMatch;
+    const fullType = notPrefix ? `not-${type}` : type;
+    if (type === 'contains-any' || type === 'contains-all') {
+      return {
+        type: fullType as AssertionType,
+        value: value.split(',').map((s) => s.trim()),
+      };
+    } else {
+      return {
+        type: fullType as AssertionType,
+        value,
+      };
+    }
+  }
+  // Options that require some special handling
+  const match = expected.match(SIMILAR_REGEX);
+  if (match) {
+    const threshold = parseFloat(match[1]) || DEFAULT_SEMANTIC_SIMILARITY_THRESHOLD;
+    const rest = expected.replace(SIMILAR_REGEX, '').trim();
+    return {
+      type: 'similar',
+      value: rest,
+      threshold,
+    };
+  }
   if (expected === 'is-json' || expected === 'contains-json') {
     return {
       type: expected,
     };
   }
+  // Default to equality
   return {
     type: 'equals',
     value: expected,

package/src/cache.ts CHANGED Viewed

@@ -4,8 +4,8 @@ import path from 'node:path';
 import cacheManager from 'cache-manager';
 import fsStore from 'cache-manager-fs-hash';
-import logger from './logger.js';
-import { getConfigDirectoryPath, fetchWithTimeout } from './util.js';
+import logger from './logger';
+import { getConfigDirectoryPath, fetchWithTimeout } from './util';
 import type { Cache } from 'cache-manager';
 import type { RequestInfo, RequestInit } from 'node-fetch';

package/src/evaluator.ts CHANGED Viewed

@@ -4,8 +4,8 @@ import async from 'async';
 import chalk from 'chalk';
 import nunjucks from 'nunjucks';
-import logger from './logger.js';
-import { runAssertions } from './assertions.js';
+import logger from './logger';
+import { runAssertions } from './assertions';
 import type { SingleBar } from 'cli-progress';
 import type {
@@ -19,12 +19,12 @@ import type {
   Prompt,
   TestCase,
   AtomicTestCase,
-} from './types.js';
-import { generatePrompts } from './suggestions.js';
+} from './types';
+import { generatePrompts } from './suggestions';
 interface RunEvalOptions {
   provider: ApiProvider;
-  prompt: string;
+  prompt: Prompt;
   test: AtomicTestCase;
@@ -86,10 +86,13 @@ class Evaluator {
     includeProviderId,
   }: RunEvalOptions): Promise<EvaluateResult> {
     const vars = test.vars || {};
-    const renderedPrompt = nunjucks.renderString(prompt, vars);
+    const renderedPrompt = nunjucks.renderString(prompt.raw, vars);
     // Note that we're using original prompt, not renderedPrompt
-    const promptDisplay = includeProviderId ? `[${provider.id()}] ${prompt}` : prompt;
+    let promptDisplay = prompt.display;
+    if (includeProviderId) {
+      promptDisplay = `[${provider.id()}] ${promptDisplay}`;
+    }
     const setup = {
       prompt: {
@@ -142,7 +145,7 @@ class Evaluator {
     } catch (err) {
       return {
         ...setup,
-        error: String(err),
+        error: String(err) + '\n\n' + (err as Error).stack,
         success: false,
       };
     }
@@ -155,7 +158,7 @@ class Evaluator {
     if (options.generateSuggestions) {
       // TODO(ian): Move this into its own command/file
       logger.info(`Generating prompt variations...`);
-      const { prompts: newPrompts, error } = await generatePrompts(testSuite.prompts[0], 1);
+      const { prompts: newPrompts, error } = await generatePrompts(testSuite.prompts[0].raw, 1);
       if (error || !newPrompts) {
         throw new Error(`Failed to generate prompts: ${error}`);
       }
@@ -178,7 +181,7 @@ class Evaluator {
             async (answer) => {
               rl.close();
               if (answer.toLowerCase().startsWith('y')) {
-                testSuite.prompts.push(prompt);
+                testSuite.prompts.push({ raw: prompt, display: prompt });
                 numAdded++;
               } else {
                 logger.info('Skipping this prompt.');
@@ -196,13 +199,13 @@ class Evaluator {
     }
     // Split prompts by provider
-    for (const promptContent of testSuite.prompts) {
+    for (const prompt of testSuite.prompts) {
       for (const provider of testSuite.providers) {
-        const display =
-          testSuite.providers.length > 1 ? `[${provider.id()}] ${promptContent}` : promptContent;
+        const updatedDisplay =
+          testSuite.providers.length > 1 ? `[${provider.id()}] ${prompt.display}` : prompt.display;
         prompts.push({
-          raw: promptContent,
-          display,
+          ...prompt,
+          display: updatedDisplay,
         });
       }
     }
@@ -248,6 +251,7 @@ class Evaluator {
     // And progress bar...
     let progressbar: SingleBar | undefined;
     if (options.showProgressBar) {
+      // FIXME(ian): Add var combinations too
       const totalNumRuns =
         testSuite.prompts.length * testSuite.providers.length * (tests.length || 1);
       const cliProgress = await import('cli-progress');
@@ -284,11 +288,14 @@ class Evaluator {
       const varCombinations = generateVarCombinations(testCase.vars || {});
       for (const vars of varCombinations) {
         let colIndex = 0;
-        for (const promptContent of testSuite.prompts) {
+        for (const prompt of testSuite.prompts) {
           for (const provider of testSuite.providers) {
             runEvalOptions.push({
               provider,
-              prompt: prependToPrompt + promptContent + appendToPrompt,
+              prompt: {
+                ...prompt,
+                raw: prependToPrompt + prompt.raw + appendToPrompt,
+              },
               test: { ...testCase, vars },
               includeProviderId: testSuite.providers.length > 1,
               rowIndex,
@@ -314,7 +321,7 @@ class Evaluator {
         if (progressbar) {
           progressbar.increment({
             provider: options.provider.id(),
-            prompt: options.prompt.slice(0, 10),
+            prompt: options.prompt.raw.slice(0, 10),
             vars: Object.entries(options.test.vars || {})
               .map(([k, v]) => `${k}=${v}`)
               .join(' ')

package/src/index.ts CHANGED Viewed

@@ -1,12 +1,12 @@
-import { evaluate as doEvaluate } from './evaluator.js';
-import { loadApiProviders } from './providers.js';
-import assertions from './assertions.js';
-import providers from './providers.js';
+import { evaluate as doEvaluate } from './evaluator';
+import { loadApiProviders } from './providers';
+import assertions from './assertions';
+import providers from './providers';
-import type { EvaluateOptions, TestSuite, TestSuiteConfig } from './types.js';
-import { readTests } from './util.js';
+import type { EvaluateOptions, TestSuite, TestSuiteConfig } from './types';
+import { readTests } from './util';
-export * from './types.js';
+export * from './types';
 interface EvaluateTestSuite extends TestSuiteConfig {
   prompts: string[];
@@ -15,9 +15,14 @@ interface EvaluateTestSuite extends TestSuiteConfig {
 async function evaluate(testSuite: EvaluateTestSuite, options: EvaluateOptions = {}) {
   const constructedTestSuite: TestSuite = {
     ...testSuite,
-    prompts: testSuite.prompts, // raw prompts expected
     providers: await loadApiProviders(testSuite.providers),
     tests: await readTests(testSuite.tests),
+    // Full prompts expected (not filepaths)
+    prompts: testSuite.prompts.map((promptContent) => ({
+      raw: promptContent,
+      display: promptContent,
+    })),
   };
   return doEvaluate(constructedTestSuite, options);
 }