npm - promptfoo - Versions diffs - 0.5.1 → 0.6.0 - Mend

promptfoo 0.5.1 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (77) hide show

package/README.md +20 -248
package/dist/__mocks__/esm.js +5 -1
package/dist/__mocks__/esm.js.map +1 -1
package/dist/assertions.d.ts +18 -0
package/dist/assertions.d.ts.map +1 -0
package/dist/assertions.js +128 -0
package/dist/assertions.js.map +1 -0
package/dist/esm.d.ts.map +1 -1
package/dist/esm.js +10 -3
package/dist/esm.js.map +1 -1
package/dist/evaluator.d.ts.map +1 -1
package/dist/evaluator.js +88 -117
package/dist/evaluator.js.map +1 -1
package/dist/index.d.ts +13 -0
package/dist/index.d.ts.map +1 -1
package/dist/index.js +34 -5
package/dist/index.js.map +1 -1
package/dist/logger.js +18 -11
package/dist/logger.js.map +1 -1
package/dist/main.js +95 -53
package/dist/main.js.map +1 -1
package/dist/prompts.d.ts +4 -0
package/dist/prompts.d.ts.map +1 -1
package/dist/prompts.js +12 -1
package/dist/prompts.js.map +1 -1
package/dist/providers/localai.js +21 -13
package/dist/providers/localai.js.map +1 -1
package/dist/providers/openai.d.ts +9 -4
package/dist/providers/openai.d.ts.map +1 -1
package/dist/providers/openai.js +39 -29
package/dist/providers/openai.js.map +1 -1
package/dist/providers/shared.d.ts.map +1 -1
package/dist/providers/shared.js +5 -2
package/dist/providers/shared.js.map +1 -1
package/dist/providers.d.ts +10 -0
package/dist/providers.d.ts.map +1 -1
package/dist/providers.js +51 -14
package/dist/providers.js.map +1 -1
package/dist/suggestions.d.ts +9 -0
package/dist/suggestions.d.ts.map +1 -0
package/dist/suggestions.js +54 -0
package/dist/suggestions.js.map +1 -0
package/dist/types.d.ts +11 -2
package/dist/types.d.ts.map +1 -1
package/dist/types.js +2 -1
package/dist/util.d.ts +1 -1
package/dist/util.d.ts.map +1 -1
package/dist/util.js +86 -31
package/dist/util.js.map +1 -1
package/dist/web/client/assets/index-207192fc.css +1 -0
package/dist/web/client/assets/index-8751749f.js +172 -0
package/dist/web/client/index.html +2 -2
package/dist/web/server.js +38 -31
package/dist/web/server.js.map +1 -1
package/package.json +14 -4
package/src/assertions.ts +154 -0
package/src/esm.ts +5 -2
package/src/evaluator.ts +61 -139
package/src/index.ts +12 -0
package/src/main.ts +28 -3
package/src/prompts.ts +9 -0
package/src/providers/openai.ts +16 -9
package/src/providers/shared.ts +1 -1
package/src/providers.ts +8 -0
package/src/suggestions.ts +63 -0
package/src/types.ts +14 -2
package/src/util.ts +24 -3
package/src/web/client/package.json +1 -0
package/src/web/client/src/App.css +4 -0
package/src/web/client/src/App.tsx +29 -5
package/src/web/client/src/Logo.css +5 -0
package/src/web/client/src/NavBar.css +18 -0
package/src/web/client/src/NavBar.tsx +12 -1
package/src/web/client/src/index.css +10 -0
package/src/web/server.ts +2 -2
package/dist/web/client/assets/index-710f1308.css +0 -1
package/dist/web/client/assets/index-900b20c0.js +0 -172

package/dist/web/client/index.html CHANGED Viewed

@@ -5,8 +5,8 @@
     <link rel="icon" type="image/svg+xml" href="favicon.ico" />
     <meta name="viewport" content="width=device-width, initial-scale=1.0" />
     <title>promptfoo web viewer</title>
-    <script type="module" crossorigin src="/assets/index-900b20c0.js"></script>
-    <link rel="stylesheet" href="/assets/index-710f1308.css">
+    <script type="module" crossorigin src="/assets/index-8751749f.js"></script>
+    <link rel="stylesheet" href="/assets/index-207192fc.css">
   </head>
   <body>
     <div id="root"></div>

package/dist/web/server.js CHANGED Viewed

@@ -1,24 +1,30 @@
-import fs from 'fs';
-import path from 'node:path';
-import readline from 'node:readline';
-import http from 'node:http';
-import debounce from 'debounce';
-import open from 'open';
-import express from 'express';
-import cors from 'cors';
-import { Server as SocketIOServer } from 'socket.io';
-import promptfoo from '../index.js';
-import logger from '../logger.js';
-import { getDirectory } from '../esm.js';
-import { getLatestResultsPath } from '../util.js';
-export function init(port = 15500) {
-    const app = express();
-    const staticDir = path.join(getDirectory(), 'web', 'client');
-    app.use(cors());
-    app.use(express.json());
-    app.use(express.static(staticDir));
-    const httpServer = http.createServer(app);
-    const io = new SocketIOServer(httpServer, {
+"use strict";
+var __importDefault = (this && this.__importDefault) || function (mod) {
+    return (mod && mod.__esModule) ? mod : { "default": mod };
+};
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.init = void 0;
+const fs_1 = __importDefault(require("fs"));
+const node_path_1 = __importDefault(require("node:path"));
+const node_readline_1 = __importDefault(require("node:readline"));
+const node_http_1 = __importDefault(require("node:http"));
+const debounce_1 = __importDefault(require("debounce"));
+const express_1 = __importDefault(require("express"));
+const cors_1 = __importDefault(require("cors"));
+const opener_1 = __importDefault(require("opener"));
+const socket_io_1 = require("socket.io");
+const index_js_1 = __importDefault(require("../index.js"));
+const logger_js_1 = __importDefault(require("../logger.js"));
+const esm_js_1 = require("../esm.js");
+const util_js_1 = require("../util.js");
+function init(port = 15500) {
+    const app = (0, express_1.default)();
+    const staticDir = node_path_1.default.join((0, esm_js_1.getDirectory)(), 'web', 'client');
+    app.use((0, cors_1.default)());
+    app.use(express_1.default.json());
+    app.use(express_1.default.static(staticDir));
+    const httpServer = node_http_1.default.createServer(app);
+    const io = new socket_io_1.Server(httpServer, {
         cors: {
             origin: '*',
         },
@@ -26,16 +32,16 @@ export function init(port = 15500) {
     app.post('/evaluate', async (req, res) => {
         try {
             const { provider, options } = req.body;
-            const summary = await promptfoo.evaluate(provider, options);
+            const summary = await index_js_1.default.evaluate(provider, options);
             res.json(summary);
         }
         catch (error) {
             res.status(500).json({ message: 'Error evaluating prompts' });
         }
     });
-    const latestJsonPath = getLatestResultsPath();
+    const latestJsonPath = (0, util_js_1.getLatestResultsPath)();
     const readLatestJson = () => {
-        const data = fs.readFileSync(latestJsonPath, 'utf8');
+        const data = fs_1.default.readFileSync(latestJsonPath, 'utf8');
         const jsonData = JSON.parse(data);
         return jsonData.table;
     };
@@ -43,7 +49,7 @@ export function init(port = 15500) {
         // Send the initial table data when a client connects
         socket.emit('init', { table: readLatestJson() });
         // Watch for changes to latest.json and emit the update event
-        fs.watch(latestJsonPath, debounce((event) => {
+        fs_1.default.watch(latestJsonPath, (0, debounce_1.default)((event) => {
             if (event === 'change') {
                 socket.emit('update', { table: readLatestJson() });
             }
@@ -51,24 +57,25 @@ export function init(port = 15500) {
     });
     httpServer.listen(port, () => {
         const url = `http://localhost:${port}`;
-        logger.info(`Server listening at ${url}`);
-        const rl = readline.createInterface({
+        logger_js_1.default.info(`Server listening at ${url}`);
+        const rl = node_readline_1.default.createInterface({
             input: process.stdin,
             output: process.stdout,
         });
         rl.question('Do you want to open the browser to the URL? (y/N): ', async (answer) => {
             if (answer.toLowerCase().startsWith('y')) {
                 try {
-                    await open(url);
-                    logger.info(`Opening browser to: ${url}`);
+                    await (0, opener_1.default)(url);
+                    logger_js_1.default.info(`Opening browser to: ${url}`);
                 }
                 catch (err) {
-                    logger.error(`Failed to open browser: ${String(err)}`);
+                    logger_js_1.default.error(`Failed to open browser: ${String(err)}`);
                 }
             }
             rl.close();
-            logger.info('Press Ctrl+C to stop the server');
+            logger_js_1.default.info('Press Ctrl+C to stop the server');
         });
     });
 }
+exports.init = init;
 //# sourceMappingURL=server.js.map

package/dist/web/server.js.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"server.js","sourceRoot":"","sources":["../../src/web/server.ts"],"names":[],"mappings":"AAAA,~~OAAO,EAAE,MAAM,IAAI,CAAC~~;AACpB,~~OAAO,IAAI,MAAM,WAAW,CAAC~~;AAC7B,~~OAAO,QAAQ,MAAM,eAAe,CAAC~~;AACrC,~~OAAO,IAAI,MAAM,WAAW,CAAC~~;AAE7B,~~OAAO,QAAQ,MAAM,UAAU,CAAC~~;AAChC,~~OAAO,IAAI,MAAM,MAAM,CAAC~~;~~AACxB,OAAO,OAAO,MAAM,SAAS,CAAC;~~AAC9B,~~OAAO,IAAI,MAAM,MAAM,CAAC~~;AACxB,~~OAAO~~,~~EAAE,MAAM,IAAI,cAAc,EAAE,MAAM,WAAW,CAAC~~;AAErD,~~OAAO,SAAS,MAAM,aAAa,CAAC~~;AACpC,~~OAAO,MAAM,MAAM,cAAc,CAAC~~;AAClC,~~OAAO,EAAE,YAAY,EAAE,MAAM,WAAW,CAAC~~;AACzC,~~OAAO,EAAE,oBAAoB,EAAE,MAAM,YAAY,CAAC~~;AAIlD,~~MAAM~~,~~UAAU,~~IAAI,CAAC,IAAI,GAAG,KAAK;IAC/B,MAAM,GAAG,GAAG,~~OAAO~~,~~EAAE~~,CAAC;IAEtB,MAAM,SAAS,GAAG,~~IAAI~~,CAAC,IAAI,CAAC,~~YAAY~~,~~EAAE~~,EAAE,KAAK,EAAE,QAAQ,CAAC,CAAC;IAE7D,GAAG,CAAC,GAAG,CAAC,~~IAAI~~,~~EAAE~~,CAAC,CAAC;IAChB,GAAG,CAAC,GAAG,CAAC,~~OAAO~~,CAAC,IAAI,EAAE,CAAC,CAAC;IACxB,GAAG,CAAC,GAAG,CAAC,~~OAAO~~,CAAC,MAAM,CAAC,SAAS,CAAC,CAAC,CAAC;IAEnC,MAAM,UAAU,GAAG,~~IAAI~~,CAAC,YAAY,CAAC,GAAG,CAAC,CAAC;IAC1C,MAAM,EAAE,GAAG,IAAI,~~cAAc~~,CAAC,UAAU,EAAE;QACxC,IAAI,EAAE;YACJ,MAAM,EAAE,GAAG;SACZ;KACF,CAAC,CAAC;IAUH,GAAG,CAAC,IAAI,CAAC,WAAW,EAAE,KAAK,EAAE,GAAY,EAAE,GAAa,EAAE,EAAE;QAC1D,IAAI;YACF,MAAM,EAAE,QAAQ,EAAE,OAAO,EAAE,GAAG,GAAG,CAAC,IAA2B,CAAC;YAC9D,MAAM,OAAO,GAAG,MAAM,~~SAAS~~,CAAC,QAAQ,CAAC,QAAQ,EAAE,OAAO,CAAC,CAAC;YAC5D,GAAG,CAAC,IAAI,CAAC,OAAO,CAAC,CAAC;SACnB;QAAC,OAAO,KAAK,EAAE;YACd,GAAG,CAAC,MAAM,CAAC,GAAG,CAAC,CAAC,IAAI,CAAC,EAAE,OAAO,EAAE,0BAA0B,EAAE,CAAC,CAAC;SAC/D;IACH,CAAC,CAAC,CAAC;IAEH,MAAM,cAAc,GAAG,~~oBAAoB~~,~~EAAE~~,CAAC;IAC9C,MAAM,cAAc,GAAG,GAAG,EAAE;QAC1B,MAAM,IAAI,GAAG,~~EAAE~~,CAAC,YAAY,CAAC,cAAc,EAAE,MAAM,CAAC,CAAC;QACrD,MAAM,QAAQ,GAAG,IAAI,CAAC,KAAK,CAAC,IAAI,CAAC,CAAC;QAClC,OAAO,QAAQ,CAAC,KAAK,CAAC;IACxB,CAAC,CAAC;IAEF,EAAE,CAAC,EAAE,CAAC,YAAY,EAAE,CAAC,MAAM,EAAE,EAAE;QAC7B,qDAAqD;QACrD,MAAM,CAAC,IAAI,CAAC,MAAM,EAAE,EAAE,KAAK,EAAE,cAAc,EAAE,EAAE,CAAC,CAAC;QAEjD,6DAA6D;QAC7D,~~EAAE~~,CAAC,KAAK,CACN,cAAc,EACd,~~QAAQ~~,~~CAAC~~,CAAC,KAAa,EAAE,EAAE;YACzB,IAAI,KAAK,KAAK,QAAQ,EAAE;gBACtB,MAAM,CAAC,IAAI,CAAC,QAAQ,EAAE,EAAE,KAAK,EAAE,cAAc,EAAE,EAAE,CAAC,CAAC;aACpD;QACH,CAAC,EAAE,GAAG,CAAC,CACR,CAAC;IACJ,CAAC,CAAC,CAAC;IAEH,UAAU,CAAC,MAAM,CAAC,IAAI,EAAE,GAAG,EAAE;QAC3B,MAAM,GAAG,GAAG,oBAAoB,IAAI,EAAE,CAAC;QACvC,~~MAAM~~,CAAC,IAAI,CAAC,uBAAuB,GAAG,EAAE,CAAC,CAAC;QAE1C,MAAM,EAAE,GAAG,~~QAAQ~~,CAAC,eAAe,CAAC;YAClC,KAAK,EAAE,OAAO,CAAC,KAAK;YACpB,MAAM,EAAE,OAAO,CAAC,MAAM;SACvB,CAAC,CAAC;QACH,EAAE,CAAC,QAAQ,CAAC,qDAAqD,EAAE,KAAK,EAAE,MAAM,EAAE,EAAE;YAClF,IAAI,MAAM,CAAC,WAAW,EAAE,CAAC,UAAU,CAAC,GAAG,CAAC,EAAE;gBACxC,IAAI;oBACF,MAAM,~~IAAI~~,~~CAAC~~,GAAG,CAAC,CAAC;~~oBAChB~~,~~MAAM~~,CAAC,IAAI,CAAC,uBAAuB,GAAG,EAAE,CAAC,CAAC;iBAC3C;gBAAC,OAAO,GAAG,EAAE;oBACZ,~~MAAM~~,CAAC,KAAK,CAAC,2BAA2B,MAAM,CAAC,GAAG,CAAC,EAAE,CAAC,CAAC;iBACxD;aACF;YACD,EAAE,CAAC,KAAK,EAAE,CAAC;YACX,~~MAAM~~,CAAC,IAAI,CAAC,iCAAiC,CAAC,CAAC;QACjD,CAAC,CAAC,CAAC;IACL,CAAC,CAAC,CAAC;AACL,CAAC"}
1	+ {"version":3,"file":"server.js","sourceRoot":"","sources":["../../src/web/server.ts"],"names":[],"mappings":";;;;;;AAAA,4CAAoB;AACpB,0DAA6B;AAC7B,kEAAqC;AACrC,0DAA6B;AAE7B,wDAAgC;AAChC,sDAA8B;AAC9B,gDAAwB;AACxB,oDAA4B;AAC5B,yCAAqD;AAErD,2DAAoC;AACpC,6DAAkC;AAClC,sCAAyC;AACzC,wCAAkD;AAIlD,SAAgB,IAAI,CAAC,IAAI,GAAG,KAAK;IAC/B,MAAM,GAAG,GAAG,IAAA,iBAAO,GAAE,CAAC;IAEtB,MAAM,SAAS,GAAG,mBAAI,CAAC,IAAI,CAAC,IAAA,qBAAY,GAAE,EAAE,KAAK,EAAE,QAAQ,CAAC,CAAC;IAE7D,GAAG,CAAC,GAAG,CAAC,IAAA,cAAI,GAAE,CAAC,CAAC;IAChB,GAAG,CAAC,GAAG,CAAC,iBAAO,CAAC,IAAI,EAAE,CAAC,CAAC;IACxB,GAAG,CAAC,GAAG,CAAC,iBAAO,CAAC,MAAM,CAAC,SAAS,CAAC,CAAC,CAAC;IAEnC,MAAM,UAAU,GAAG,mBAAI,CAAC,YAAY,CAAC,GAAG,CAAC,CAAC;IAC1C,MAAM,EAAE,GAAG,IAAI,kBAAc,CAAC,UAAU,EAAE;QACxC,IAAI,EAAE;YACJ,MAAM,EAAE,GAAG;SACZ;KACF,CAAC,CAAC;IAUH,GAAG,CAAC,IAAI,CAAC,WAAW,EAAE,KAAK,EAAE,GAAY,EAAE,GAAa,EAAE,EAAE;QAC1D,IAAI;YACF,MAAM,EAAE,QAAQ,EAAE,OAAO,EAAE,GAAG,GAAG,CAAC,IAA2B,CAAC;YAC9D,MAAM,OAAO,GAAG,MAAM,kBAAS,CAAC,QAAQ,CAAC,QAAQ,EAAE,OAAO,CAAC,CAAC;YAC5D,GAAG,CAAC,IAAI,CAAC,OAAO,CAAC,CAAC;SACnB;QAAC,OAAO,KAAK,EAAE;YACd,GAAG,CAAC,MAAM,CAAC,GAAG,CAAC,CAAC,IAAI,CAAC,EAAE,OAAO,EAAE,0BAA0B,EAAE,CAAC,CAAC;SAC/D;IACH,CAAC,CAAC,CAAC;IAEH,MAAM,cAAc,GAAG,IAAA,8BAAoB,GAAE,CAAC;IAC9C,MAAM,cAAc,GAAG,GAAG,EAAE;QAC1B,MAAM,IAAI,GAAG,YAAE,CAAC,YAAY,CAAC,cAAc,EAAE,MAAM,CAAC,CAAC;QACrD,MAAM,QAAQ,GAAG,IAAI,CAAC,KAAK,CAAC,IAAI,CAAC,CAAC;QAClC,OAAO,QAAQ,CAAC,KAAK,CAAC;IACxB,CAAC,CAAC;IAEF,EAAE,CAAC,EAAE,CAAC,YAAY,EAAE,CAAC,MAAM,EAAE,EAAE;QAC7B,qDAAqD;QACrD,MAAM,CAAC,IAAI,CAAC,MAAM,EAAE,EAAE,KAAK,EAAE,cAAc,EAAE,EAAE,CAAC,CAAC;QAEjD,6DAA6D;QAC7D,YAAE,CAAC,KAAK,CACN,cAAc,EACd,IAAA,kBAAQ,EAAC,CAAC,KAAa,EAAE,EAAE;YACzB,IAAI,KAAK,KAAK,QAAQ,EAAE;gBACtB,MAAM,CAAC,IAAI,CAAC,QAAQ,EAAE,EAAE,KAAK,EAAE,cAAc,EAAE,EAAE,CAAC,CAAC;aACpD;QACH,CAAC,EAAE,GAAG,CAAC,CACR,CAAC;IACJ,CAAC,CAAC,CAAC;IAEH,UAAU,CAAC,MAAM,CAAC,IAAI,EAAE,GAAG,EAAE;QAC3B,MAAM,GAAG,GAAG,oBAAoB,IAAI,EAAE,CAAC;QACvC,mBAAM,CAAC,IAAI,CAAC,uBAAuB,GAAG,EAAE,CAAC,CAAC;QAE1C,MAAM,EAAE,GAAG,uBAAQ,CAAC,eAAe,CAAC;YAClC,KAAK,EAAE,OAAO,CAAC,KAAK;YACpB,MAAM,EAAE,OAAO,CAAC,MAAM;SACvB,CAAC,CAAC;QACH,EAAE,CAAC,QAAQ,CAAC,qDAAqD,EAAE,KAAK,EAAE,MAAM,EAAE,EAAE;YAClF,IAAI,MAAM,CAAC,WAAW,EAAE,CAAC,UAAU,CAAC,GAAG,CAAC,EAAE;gBACxC,IAAI;oBACF,MAAM,IAAA,gBAAM,EAAC,GAAG,CAAC,CAAC;oBAClB,mBAAM,CAAC,IAAI,CAAC,uBAAuB,GAAG,EAAE,CAAC,CAAC;iBAC3C;gBAAC,OAAO,GAAG,EAAE;oBACZ,mBAAM,CAAC,KAAK,CAAC,2BAA2B,MAAM,CAAC,GAAG,CAAC,EAAE,CAAC,CAAC;iBACxD;aACF;YACD,EAAE,CAAC,KAAK,EAAE,CAAC;YACX,mBAAM,CAAC,IAAI,CAAC,iCAAiC,CAAC,CAAC;QACjD,CAAC,CAAC,CAAC;IACL,CAAC,CAAC,CAAC;AACL,CAAC;AA7ED,oBA6EC"}

package/package.json CHANGED Viewed

@@ -1,10 +1,16 @@
 {
   "name": "promptfoo",
   "author": "Ian Webster",
-  "version": "0.5.1",
+  "version": "0.6.0",
   "license": "MIT",
-  "type": "module",
+  "type": "commonjs",
   "main": "dist/index.js",
+  "exports": {
+    ".": {
+      "import": "./dist/index.js",
+      "require": "./dist/index.js"
+    }
+  },
   "types": "dist/index.d.ts",
   "typings": "dist/index.d.ts",
   "files": [
@@ -35,9 +41,12 @@
     "@types/cors": "^2.8.13",
     "@types/debounce": "^1.2.1",
     "@types/express": "^4.17.17",
+    "@types/glob": "^8.1.0",
     "@types/jest": "^29.5.1",
     "@types/js-yaml": "^4.0.5",
+    "@types/node-fetch": "^2.6.4",
     "@types/nunjucks": "^3.2.2",
+    "@types/opener": "^1.4.0",
     "babel-jest": "^29.5.0",
     "jest-watch-typeahead": "^2.2.2",
     "prettier": "^2.8.8",
@@ -56,11 +65,12 @@
     "csv-stringify": "^6.3.2",
     "debounce": "^1.2.1",
     "express": "^4.18.2",
+    "glob": "^10.2.6",
     "js-yaml": "^4.1.0",
     "lru-cache": "^9.1.1",
-    "node-fetch": "^3.3.1",
+    "node-fetch": "^2.6.7",
     "nunjucks": "^3.2.4",
-    "open": "^9.1.0",
+    "opener": "^1.5.2",
     "socket.io": "^4.6.1",
     "winston": "^3.8.2"
   }

package/src/assertions.ts ADDED Viewed

@@ -0,0 +1,154 @@
+import nunjucks from 'nunjucks';
+import { DefaultEmbeddingProvider, DefaultGradingProvider } from './providers/openai.js';
+import { cosineSimilarity } from './util.js';
+import { loadApiProvider } from './providers.js';
+import { DEFAULT_GRADING_PROMPT } from './prompts.js';
+import type { EvaluateOptions, GradingConfig, TokenUsage } from './types.js';
+interface GradingResult {
+  pass: boolean;
+  reason: string;
+  tokensUsed: TokenUsage;
+}
+const SIMILAR_REGEX = /similar(?::|\((\d+(\.\d+)?)\):)/;
+const DEFAULT_SEMANTIC_SIMILARITY_THRESHOLD = 0.8;
+export async function matchesExpectedValue(
+  expected: string,
+  output: string,
+  options: EvaluateOptions,
+): Promise<{ pass: boolean; reason?: string }> {
+  const match = expected.match(SIMILAR_REGEX);
+  if (match) {
+    const threshold = parseFloat(match[1]) || DEFAULT_SEMANTIC_SIMILARITY_THRESHOLD;
+    const rest = expected.replace(SIMILAR_REGEX, '').trim();
+    return matchesSimilarity(rest, output, threshold);
+  } else if (expected.startsWith('fn:') || expected.startsWith('eval:')) {
+    // TODO(1.0): delete eval: legacy option
+    const sliceLength = expected.startsWith('fn:') ? 'fn:'.length : 'eval:'.length;
+    const functionBody = expected.slice(sliceLength);
+    const customFunction = new Function('output', `return ${functionBody}`);
+    return { pass: customFunction(output) };
+  } else if (expected.startsWith('grade:')) {
+    return matchesLlmRubric(expected.slice(6), output, options.grading);
+  } else {
+    const pass = expected === output;
+    return {
+      pass,
+      reason: pass ? undefined : `Expected: ${expected}, Output: ${output}`,
+    };
+  }
+}
+export async function matchesSimilarity(
+  expected: string,
+  output: string,
+  threshold: number,
+): Promise<GradingResult> {
+  const expectedEmbedding = await DefaultEmbeddingProvider.callEmbeddingApi(expected);
+  const outputEmbedding = await DefaultEmbeddingProvider.callEmbeddingApi(output);
+  const tokensUsed = {
+    total: (expectedEmbedding.tokenUsage?.total || 0) + (outputEmbedding.tokenUsage?.total || 0),
+    prompt: (expectedEmbedding.tokenUsage?.prompt || 0) + (outputEmbedding.tokenUsage?.prompt || 0),
+    completion:
+      (expectedEmbedding.tokenUsage?.completion || 0) +
+      (outputEmbedding.tokenUsage?.completion || 0),
+  };
+  if (expectedEmbedding.error || outputEmbedding.error) {
+    return {
+      pass: false,
+      reason:
+        expectedEmbedding.error || outputEmbedding.error || 'Unknown error fetching embeddings',
+      tokensUsed,
+    };
+  }
+  if (!expectedEmbedding.embedding || !outputEmbedding.embedding) {
+    return {
+      pass: false,
+      reason: 'Embedding not found',
+      tokensUsed,
+    };
+  }
+  const similarity = cosineSimilarity(expectedEmbedding.embedding, outputEmbedding.embedding);
+  if (similarity < threshold) {
+    return {
+      pass: false,
+      reason: `Similarity ${similarity} is less than threshold ${threshold}`,
+      tokensUsed,
+    };
+  }
+  return {
+    pass: true,
+    reason: `Similarity ${similarity} is greater than threshold ${threshold}`,
+    tokensUsed,
+  };
+}
+export async function matchesLlmRubric(
+  expected: string,
+  output: string,
+  options?: GradingConfig,
+): Promise<GradingResult> {
+  if (!options) {
+    throw new Error(
+      'Cannot grade output without grading config. Specify --grader option or grading config.',
+    );
+  }
+  const prompt = nunjucks.renderString(options.prompt || DEFAULT_GRADING_PROMPT, {
+    content: output,
+    rubric: expected,
+  });
+  let provider = options.provider || DefaultGradingProvider;
+  if (typeof provider === 'string') {
+    provider = await loadApiProvider(provider);
+  }
+  const resp = await provider.callApi(prompt);
+  if (resp.error || !resp.output) {
+    return {
+      pass: false,
+      reason: resp.error || 'No output',
+      tokensUsed: {
+        total: resp.tokenUsage?.total || 0,
+        prompt: resp.tokenUsage?.prompt || 0,
+        completion: resp.tokenUsage?.completion || 0,
+      },
+    };
+  }
+  try {
+    const parsed = JSON.parse(resp.output) as GradingResult;
+    parsed.tokensUsed = {
+      total: resp.tokenUsage?.total || 0,
+      prompt: resp.tokenUsage?.prompt || 0,
+      completion: resp.tokenUsage?.completion || 0,
+    };
+    return parsed;
+  } catch (err) {
+    return {
+      pass: false,
+      reason: `Output is not valid JSON: ${resp.output}`,
+      tokensUsed: {
+        total: resp.tokenUsage?.total || 0,
+        prompt: resp.tokenUsage?.prompt || 0,
+        completion: resp.tokenUsage?.completion || 0,
+      },
+    };
+  }
+}
+export default {
+  matchesSimilarity,
+  matchesLlmRubric,
+};

package/src/esm.ts CHANGED Viewed

@@ -1,10 +1,13 @@
 // esm-specific crap that needs to get mocked out in tests
-import path from 'path';
-import { fileURLToPath } from 'url';
+//import path from 'path';
+//import { fileURLToPath } from 'url';
 export function getDirectory(): string {
+  /*
   // @ts-ignore: Jest chokes on this
   const __filename = fileURLToPath(import.meta.url);
   return path.dirname(__filename);
+ */
+  return __dirname;
 }

package/src/evaluator.ts CHANGED Viewed

@@ -1,8 +1,11 @@
+import readline from 'node:readline';
 import async from 'async';
+import chalk from 'chalk';
 import nunjucks from 'nunjucks';
-import { DEFAULT_GRADING_PROMPT } from './prompts.js';
-import { DefaultEmbeddingProvider } from './providers/openai.js';
+import logger from './logger.js';
+import { matchesExpectedValue } from './assertions.js';
 import type { SingleBar } from 'cli-progress';
 import type {
@@ -13,9 +16,8 @@ import type {
   EvaluateSummary,
   EvaluateTable,
   Prompt,
-  TokenUsage,
 } from './types.js';
-import { cosineSimilarity } from './util.js';
+import { generatePrompts } from './suggestions.js';
 interface RunEvalOptions {
   provider: ApiProvider;
@@ -27,16 +29,8 @@ interface RunEvalOptions {
   colIndex: number;
 }
-interface GradingResult {
-  pass: boolean;
-  reason: string;
-  tokensUsed: TokenUsage;
-}
 const DEFAULT_MAX_CONCURRENCY = 4;
-const SIMILAR_REGEX = /similar(?::|\((\d+(\.\d+)?)\):)/;
 class Evaluator {
   options: EvaluateOptions;
   stats: EvaluateStats;
@@ -54,128 +48,6 @@ class Evaluator {
     };
   }
-  async gradeOutput(expected: string, output: string): Promise<GradingResult> {
-    const { grading } = this.options;
-    if (!grading) {
-      throw new Error(
-        'Cannot grade output without grading config. Specify --grader option or grading config.',
-      );
-    }
-    const prompt = nunjucks.renderString(grading.prompt || DEFAULT_GRADING_PROMPT, {
-      content: output,
-      rubric: expected,
-    });
-    const resp = await grading.provider.callApi(prompt);
-    if (resp.error || !resp.output) {
-      return {
-        pass: false,
-        reason: resp.error || 'No output',
-        tokensUsed: {
-          total: resp.tokenUsage?.total || 0,
-          prompt: resp.tokenUsage?.prompt || 0,
-          completion: resp.tokenUsage?.completion || 0,
-        },
-      };
-    }
-    try {
-      const parsed = JSON.parse(resp.output) as GradingResult;
-      parsed.tokensUsed = {
-        total: resp.tokenUsage?.total || 0,
-        prompt: resp.tokenUsage?.prompt || 0,
-        completion: resp.tokenUsage?.completion || 0,
-      };
-      return parsed;
-    } catch (err) {
-      return {
-        pass: false,
-        reason: `Output is not valid JSON: ${resp.output}`,
-        tokensUsed: {
-          total: resp.tokenUsage?.total || 0,
-          prompt: resp.tokenUsage?.prompt || 0,
-          completion: resp.tokenUsage?.completion || 0,
-        },
-      };
-    }
-  }
-  async checkSimilarity(
-    expected: string,
-    output: string,
-    threshold: number,
-  ): Promise<GradingResult> {
-    const expectedEmbedding = await DefaultEmbeddingProvider.callEmbeddingApi(expected);
-    const outputEmbedding = await DefaultEmbeddingProvider.callEmbeddingApi(output);
-    const tokensUsed = {
-      total: (expectedEmbedding.tokenUsage?.total || 0) + (outputEmbedding.tokenUsage?.total || 0),
-      prompt:
-        (expectedEmbedding.tokenUsage?.prompt || 0) + (outputEmbedding.tokenUsage?.prompt || 0),
-      completion:
-        (expectedEmbedding.tokenUsage?.completion || 0) +
-        (outputEmbedding.tokenUsage?.completion || 0),
-    };
-    if (expectedEmbedding.error || outputEmbedding.error) {
-      return {
-        pass: false,
-        reason:
-          expectedEmbedding.error || outputEmbedding.error || 'Unknown error fetching embeddings',
-        tokensUsed,
-      };
-    }
-    if (!expectedEmbedding.embedding || !outputEmbedding.embedding) {
-      return {
-        pass: false,
-        reason: 'Embedding not found',
-        tokensUsed,
-      };
-    }
-    const similarity = cosineSimilarity(expectedEmbedding.embedding, outputEmbedding.embedding);
-    if (similarity < threshold) {
-      return {
-        pass: false,
-        reason: `Similarity ${similarity} is less than threshold ${threshold}`,
-        tokensUsed,
-      };
-    }
-    return {
-      pass: true,
-      reason: `Similarity ${similarity} is greater than threshold ${threshold}`,
-      tokensUsed,
-    };
-  }
-  async checkExpectedValue(
-    expected: string,
-    output: string,
-  ): Promise<{ pass: boolean; reason?: string }> {
-    const match = expected.match(SIMILAR_REGEX);
-    if (match) {
-      const threshold = parseFloat(match[1]) || 0.8;
-      const rest = expected.replace(SIMILAR_REGEX, '').trim();
-      return this.checkSimilarity(rest, output, threshold);
-    } else if (expected.startsWith('eval:')) {
-      const evalBody = expected.slice(5);
-      const evalFunction = new Function('output', `return ${evalBody}`);
-      return { pass: evalFunction(output) };
-    } else if (expected.startsWith('grade:')) {
-      return this.gradeOutput(expected.slice(6), output);
-    } else {
-      const pass = expected === output;
-      return {
-        pass,
-        reason: pass ? undefined : `Expected: ${expected}, Output: ${output}`,
-      };
-    }
-  }
   async runEval({
     provider,
     prompt,
@@ -207,7 +79,7 @@ class Evaluator {
         ret.error = response.error;
       } else if (response.output) {
         const checkResult = vars.__expected
-          ? await this.checkExpectedValue(vars.__expected, response.output)
+          ? await matchesExpectedValue(vars.__expected, response.output, this.options)
           : { pass: true };
         if (!checkResult.pass) {
           ret.error = checkResult.reason || `Expected: ${vars.__expected}`;
@@ -243,6 +115,48 @@ class Evaluator {
     const options = this.options;
     const prompts: Prompt[] = [];
+    if (options.prompt?.generateSuggestions) {
+      logger.info(`Generating prompt variations...`);
+      const { prompts: newPrompts, error } = await generatePrompts(options.prompts[0], 1);
+      if (error || !newPrompts) {
+        throw new Error(`Failed to generate prompts: ${error}`);
+      }
+      logger.info(chalk.blue('Generated prompts:'));
+      let numAdded = 0;
+      for (const prompt of newPrompts) {
+        logger.info('--------------------------------------------------------');
+        logger.info(`${prompt}`);
+        logger.info('--------------------------------------------------------');
+        // Ask the user if they want to continue
+        await new Promise((resolve) => {
+          const rl = readline.createInterface({
+            input: process.stdin,
+            output: process.stdout,
+          });
+          rl.question(
+            `${chalk.blue('Do you want to test this prompt?')} (y/N): `,
+            async (answer) => {
+              rl.close();
+              if (answer.toLowerCase().startsWith('y')) {
+                options.prompts.push(prompt);
+                numAdded++;
+              } else {
+                logger.info('Skipping this prompt.');
+              }
+              resolve(true);
+            },
+          );
+        });
+      }
+      if (numAdded < 1) {
+        logger.info(chalk.red('No prompts selected. Aborting.'));
+        process.exit(1);
+      }
+    }
     for (const promptContent of options.prompts) {
       for (const provider of options.providers) {
         const display =
@@ -255,16 +169,20 @@ class Evaluator {
     }
     const vars = options.vars && options.vars.length > 0 ? options.vars : [{}];
-    const varsWithExpectedKeyRemoved = vars.map((v) => {
+    const varsWithSpecialColsRemoved = vars.map((v) => {
       const ret = { ...v };
-      delete ret.__expected;
+      Object.keys(ret).forEach((key) => {
+        if (key.startsWith('__')) {
+          delete ret[key];
+        }
+      });
       return ret;
     });
     const isTest = vars[0].__expected;
     const table: EvaluateTable = {
       head: {
         prompts: prompts.map((p) => p.display),
-        vars: Object.keys(varsWithExpectedKeyRemoved[0]),
+        vars: Object.keys(varsWithSpecialColsRemoved[0]),
       },
       body: [],
     };
@@ -292,11 +210,15 @@ class Evaluator {
     let rowIndex = 0;
     for (const row of vars) {
       let colIndex = 0;
+      const prependToPrompt = row.__prefix || options.prompt?.prefix || '';
+      const appendToPrompt = row.__suffix || options.prompt?.suffix || '';
       for (const promptContent of options.prompts) {
         for (const provider of options.providers) {
           runEvalOptions.push({
             provider,
-            prompt: promptContent,
+            prompt: prependToPrompt + promptContent + appendToPrompt,
             vars: row,
             includeProviderId: options.providers.length > 1,
             rowIndex,

package/src/index.ts CHANGED Viewed

@@ -1,8 +1,12 @@
 import { evaluate as doEvaluate } from './evaluator.js';
 import { loadApiProvider } from './providers.js';
+import assertions from './assertions.js';
+import providers from './providers.js';
 import type { ApiProvider, EvaluateOptions, EvaluateSummary } from './types.js';
+export * from './types.js';
 async function evaluate(
   providers: (string | ApiProvider)[] | (string | ApiProvider),
   options: Omit<EvaluateOptions, 'providers'>,
@@ -30,6 +34,14 @@ async function evaluate(
   });
 }
+module.exports = {
+  evaluate,
+  assertions,
+  providers,
+};
 export default {
   evaluate,
+  assertions,
+  providers,
 };