npm - @aigne/cli - Versions diffs - 1.60.0-beta → 1.74.0-beta - Mend

@aigne/cli 1.60.0-beta → 1.74.0-beta

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (360) hide show

package/README.md +12 -12
package/dist/_virtual/rolldown_runtime.cjs +29 -0
package/dist/bunwrapper.cjs +22 -0
package/dist/bunwrapper.d.cts +1 -0
package/dist/bunwrapper.d.mts +1 -0
package/dist/bunwrapper.mjs +23 -0
package/dist/bunwrapper.mjs.map +1 -0
package/dist/cli.cjs +42 -0
package/dist/cli.d.cts +9 -0
package/dist/cli.d.cts.map +1 -0
package/dist/cli.d.mts +10 -0
package/dist/cli.d.mts.map +1 -0
package/dist/cli.mjs +41 -0
package/dist/cli.mjs.map +1 -0
package/dist/commands/aigne.cjs +23 -0
package/dist/commands/aigne.mjs +22 -0
package/dist/commands/aigne.mjs.map +1 -0
package/dist/commands/app/agent.cjs +117 -0
package/dist/commands/app/agent.mjs +113 -0
package/dist/commands/app/agent.mjs.map +1 -0
package/dist/commands/app/app.cjs +92 -0
package/dist/commands/app/app.mjs +90 -0
package/dist/commands/app/app.mjs.map +1 -0
package/dist/commands/app/cli.cjs +6 -0
package/dist/commands/app/cli.d.cts +1 -0
package/dist/commands/app/cli.d.mts +1 -0
package/dist/commands/app/cli.mjs +8 -0
package/dist/commands/app/cli.mjs.map +1 -0
package/dist/commands/app/upgrade.cjs +243 -0
package/dist/commands/app/upgrade.mjs +240 -0
package/dist/commands/app/upgrade.mjs.map +1 -0
package/dist/commands/app.cjs +53 -0
package/dist/commands/app.mjs +53 -0
package/dist/commands/app.mjs.map +1 -0
package/dist/commands/create.cjs +66 -0
package/dist/commands/create.mjs +65 -0
package/dist/commands/create.mjs.map +1 -0
package/dist/commands/deploy.cjs +237 -0
package/dist/commands/deploy.mjs +237 -0
package/dist/commands/deploy.mjs.map +1 -0
package/dist/commands/eval.cjs +88 -0
package/dist/commands/eval.mjs +88 -0
package/dist/commands/eval.mjs.map +1 -0
package/dist/commands/hub.cjs +297 -0
package/dist/commands/hub.mjs +294 -0
package/dist/commands/hub.mjs.map +1 -0
package/dist/commands/observe.cjs +49 -0
package/dist/commands/observe.mjs +46 -0
package/dist/commands/observe.mjs.map +1 -0
package/dist/commands/run-skill.cjs +84 -0
package/dist/commands/run-skill.mjs +81 -0
package/dist/commands/run-skill.mjs.map +1 -0
package/dist/commands/run.cjs +172 -0
package/dist/commands/run.mjs +171 -0
package/dist/commands/run.mjs.map +1 -0
package/dist/commands/serve-mcp.cjs +68 -0
package/dist/commands/serve-mcp.mjs +67 -0
package/dist/commands/serve-mcp.mjs.map +1 -0
package/dist/commands/test.cjs +40 -0
package/dist/commands/test.mjs +39 -0
package/dist/commands/test.mjs.map +1 -0
package/dist/constants.cjs +28 -0
package/dist/constants.d.cts +9 -0
package/dist/constants.d.cts.map +1 -0
package/dist/constants.d.mts +9 -0
package/dist/constants.d.mts.map +1 -0
package/dist/constants.mjs +24 -0
package/dist/constants.mjs.map +1 -0
package/dist/global.d.cjs +0 -0
package/dist/global.d.cts +6 -0
package/dist/global.d.cts.map +1 -0
package/dist/global.d.mts +6 -0
package/dist/global.d.mts.map +1 -0
package/dist/index.cjs +0 -0
package/dist/index.d.cts +2 -0
package/dist/index.d.mts +2 -0
package/dist/index.mjs +1 -0
package/dist/tracer/terminal.cjs +336 -0
package/dist/tracer/terminal.mjs +332 -0
package/dist/tracer/terminal.mjs.map +1 -0
package/dist/type.cjs +0 -0
package/dist/type.d.cts +10 -0
package/dist/type.d.cts.map +1 -0
package/dist/type.d.mts +10 -0
package/dist/type.d.mts.map +1 -0
package/dist/type.mjs +1 -0
package/dist/ui/utils/terminal-input.cjs +145 -0
package/dist/ui/utils/terminal-input.mjs +144 -0
package/dist/ui/utils/terminal-input.mjs.map +1 -0
package/dist/ui/utils/text-buffer.cjs +865 -0
package/dist/ui/utils/text-buffer.mjs +865 -0
package/dist/ui/utils/text-buffer.mjs.map +1 -0
package/dist/ui/utils/text-utils.cjs +85 -0
package/dist/ui/utils/text-utils.mjs +78 -0
package/dist/ui/utils/text-utils.mjs.map +1 -0
package/dist/utils/agent-v1.cjs +180 -0
package/dist/utils/agent-v1.d.cts +138 -0
package/dist/utils/agent-v1.d.cts.map +1 -0
package/dist/utils/agent-v1.d.mts +138 -0
package/dist/utils/agent-v1.d.mts.map +1 -0
package/dist/utils/agent-v1.mjs +179 -0
package/dist/utils/agent-v1.mjs.map +1 -0
package/dist/utils/aigne-hub/constants.cjs +22 -0
package/dist/utils/aigne-hub/constants.mjs +18 -0
package/dist/utils/aigne-hub/constants.mjs.map +1 -0
package/dist/utils/aigne-hub/credential.cjs +179 -0
package/dist/utils/aigne-hub/credential.mjs +175 -0
package/dist/utils/aigne-hub/credential.mjs.map +1 -0
package/dist/utils/aigne-hub/crypto.cjs +41 -0
package/dist/utils/aigne-hub/crypto.mjs +33 -0
package/dist/utils/aigne-hub/crypto.mjs.map +1 -0
package/dist/utils/aigne-hub/model.cjs +112 -0
package/dist/utils/aigne-hub/model.d.cts +19 -0
package/dist/utils/aigne-hub/model.d.cts.map +1 -0
package/dist/utils/aigne-hub/model.d.mts +19 -0
package/dist/utils/aigne-hub/model.d.mts.map +1 -0
package/dist/utils/aigne-hub/model.mjs +106 -0
package/dist/utils/aigne-hub/model.mjs.map +1 -0
package/dist/utils/aigne-hub/store/file.cjs +64 -0
package/dist/utils/aigne-hub/store/file.mjs +64 -0
package/dist/utils/aigne-hub/store/file.mjs.map +1 -0
package/dist/utils/aigne-hub/store/index.cjs +37 -0
package/dist/utils/aigne-hub/store/index.mjs +37 -0
package/dist/utils/aigne-hub/store/index.mjs.map +1 -0
package/dist/utils/aigne-hub/store/keytar.cjs +61 -0
package/dist/utils/aigne-hub/store/keytar.mjs +61 -0
package/dist/utils/aigne-hub/store/keytar.mjs.map +1 -0
package/dist/utils/aigne-hub/store/migrate.cjs +46 -0
package/dist/utils/aigne-hub/store/migrate.mjs +45 -0
package/dist/utils/aigne-hub/store/migrate.mjs.map +1 -0
package/dist/utils/aigne-hub/type.d.cts +18 -0
package/dist/utils/aigne-hub/type.d.cts.map +1 -0
package/dist/utils/aigne-hub/type.d.mts +18 -0
package/dist/utils/aigne-hub/type.d.mts.map +1 -0
package/dist/utils/aigne-hub-user.cjs +11 -0
package/dist/utils/aigne-hub-user.d.cts +23 -0
package/dist/utils/aigne-hub-user.d.cts.map +1 -0
package/dist/utils/aigne-hub-user.d.mts +23 -0
package/dist/utils/aigne-hub-user.d.mts.map +1 -0
package/dist/utils/aigne-hub-user.mjs +11 -0
package/dist/utils/aigne-hub-user.mjs.map +1 -0
package/dist/utils/ascii-logo.cjs +30 -0
package/dist/utils/ascii-logo.d.cts +5 -0
package/dist/utils/ascii-logo.d.cts.map +1 -0
package/dist/utils/ascii-logo.d.mts +5 -0
package/dist/utils/ascii-logo.d.mts.map +1 -0
package/dist/utils/{ascii-logo.js → ascii-logo.mjs} +13 -3
package/dist/utils/ascii-logo.mjs.map +1 -0
package/dist/utils/download.cjs +25 -0
package/dist/utils/download.d.cts +7 -0
package/dist/utils/download.d.cts.map +1 -0
package/dist/utils/download.d.mts +7 -0
package/dist/utils/download.d.mts.map +1 -0
package/dist/utils/download.mjs +25 -0
package/dist/utils/download.mjs.map +1 -0
package/dist/utils/evaluation/core.cjs +84 -0
package/dist/utils/evaluation/core.mjs +84 -0
package/dist/utils/evaluation/core.mjs.map +1 -0
package/dist/utils/evaluation/dataset.cjs +47 -0
package/dist/utils/evaluation/dataset.mjs +46 -0
package/dist/utils/evaluation/dataset.mjs.map +1 -0
package/dist/utils/evaluation/evaluator.cjs +109 -0
package/dist/utils/evaluation/{evaluator.js → evaluator.mjs} +48 -45
package/dist/utils/evaluation/evaluator.mjs.map +1 -0
package/dist/utils/evaluation/reporter.cjs +225 -0
package/dist/utils/evaluation/reporter.mjs +220 -0
package/dist/utils/evaluation/reporter.mjs.map +1 -0
package/dist/utils/evaluation/runner.cjs +85 -0
package/dist/utils/evaluation/runner.mjs +85 -0
package/dist/utils/evaluation/runner.mjs.map +1 -0
package/dist/utils/get-url-origin.cjs +12 -0
package/dist/utils/get-url-origin.d.cts +5 -0
package/dist/utils/get-url-origin.d.cts.map +1 -0
package/dist/utils/get-url-origin.d.mts +5 -0
package/dist/utils/get-url-origin.d.mts.map +1 -0
package/dist/utils/get-url-origin.mjs +12 -0
package/dist/utils/get-url-origin.mjs.map +1 -0
package/dist/utils/inquirer/checkbox.cjs +265 -0
package/dist/utils/inquirer/checkbox.mjs +262 -0
package/dist/utils/inquirer/checkbox.mjs.map +1 -0
package/dist/utils/listr.cjs +226 -0
package/dist/utils/listr.d.cts +71 -0
package/dist/utils/listr.d.cts.map +1 -0
package/dist/utils/listr.d.mts +71 -0
package/dist/utils/listr.d.mts.map +1 -0
package/dist/utils/listr.mjs +222 -0
package/dist/utils/listr.mjs.map +1 -0
package/dist/utils/load-aigne.cjs +77 -0
package/dist/utils/load-aigne.d.cts +29 -0
package/dist/utils/load-aigne.d.cts.map +1 -0
package/dist/utils/load-aigne.d.mts +29 -0
package/dist/utils/load-aigne.d.mts.map +1 -0
package/dist/utils/load-aigne.mjs +74 -0
package/dist/utils/load-aigne.mjs.map +1 -0
package/dist/utils/run-chat-loop.cjs +90 -0
package/dist/utils/run-chat-loop.d.cts +20 -0
package/dist/utils/run-chat-loop.d.cts.map +1 -0
package/dist/utils/run-chat-loop.d.mts +20 -0
package/dist/utils/run-chat-loop.d.mts.map +1 -0
package/dist/utils/run-chat-loop.mjs +89 -0
package/dist/utils/run-chat-loop.mjs.map +1 -0
package/dist/utils/run-with-aigne.cjs +131 -0
package/dist/utils/run-with-aigne.d.cts +46 -0
package/dist/utils/run-with-aigne.d.cts.map +1 -0
package/dist/utils/run-with-aigne.d.mts +46 -0
package/dist/utils/run-with-aigne.d.mts.map +1 -0
package/dist/utils/run-with-aigne.mjs +126 -0
package/dist/utils/run-with-aigne.mjs.map +1 -0
package/dist/utils/serve-mcp.cjs +91 -0
package/dist/utils/serve-mcp.d.cts +20 -0
package/dist/utils/serve-mcp.d.cts.map +1 -0
package/dist/utils/serve-mcp.d.mts +20 -0
package/dist/utils/serve-mcp.d.mts.map +1 -0
package/dist/utils/serve-mcp.mjs +89 -0
package/dist/utils/serve-mcp.mjs.map +1 -0
package/dist/utils/spinner.cjs +19 -0
package/dist/utils/spinner.d.cts +5 -0
package/dist/utils/spinner.d.cts.map +1 -0
package/dist/utils/spinner.d.mts +5 -0
package/dist/utils/spinner.d.mts.map +1 -0
package/dist/utils/spinner.mjs +19 -0
package/dist/utils/spinner.mjs.map +1 -0
package/dist/utils/string-utils.cjs +11 -0
package/dist/utils/string-utils.d.cts +5 -0
package/dist/utils/string-utils.d.cts.map +1 -0
package/dist/utils/string-utils.d.mts +5 -0
package/dist/utils/string-utils.d.mts.map +1 -0
package/dist/utils/string-utils.mjs +10 -0
package/dist/utils/string-utils.mjs.map +1 -0
package/dist/utils/time.cjs +14 -0
package/dist/utils/time.d.cts +5 -0
package/dist/utils/time.d.cts.map +1 -0
package/dist/utils/time.d.mts +5 -0
package/dist/utils/time.d.mts.map +1 -0
package/dist/utils/time.mjs +14 -0
package/dist/utils/time.mjs.map +1 -0
package/dist/utils/url.cjs +8 -0
package/dist/utils/url.d.cts +5 -0
package/dist/utils/url.d.cts.map +1 -0
package/dist/utils/url.d.mts +5 -0
package/dist/utils/url.d.mts.map +1 -0
package/dist/utils/url.mjs +8 -0
package/dist/utils/url.mjs.map +1 -0
package/dist/utils/yargs.cjs +191 -0
package/dist/utils/yargs.d.cts +96 -0
package/dist/utils/yargs.d.cts.map +1 -0
package/dist/utils/yargs.d.mts +96 -0
package/dist/utils/yargs.d.mts.map +1 -0
package/dist/utils/yargs.mjs +186 -0
package/dist/utils/yargs.mjs.map +1 -0
package/package.json +122 -45
package/CHANGELOG.md +0 -5019
package/dist/bunwrapper.d.ts +0 -2
package/dist/bunwrapper.js +0 -18
package/dist/cli.d.ts +0 -7
package/dist/cli.js +0 -42
package/dist/commands/aigne.d.ts +0 -4
package/dist/commands/aigne.js +0 -35
package/dist/commands/app/agent.d.ts +0 -26
package/dist/commands/app/agent.js +0 -122
package/dist/commands/app/app.d.ts +0 -7
package/dist/commands/app/app.js +0 -92
package/dist/commands/app/cli.d.ts +0 -1
package/dist/commands/app/cli.js +0 -2
package/dist/commands/app/upgrade.d.ts +0 -54
package/dist/commands/app/upgrade.js +0 -236
package/dist/commands/app.d.ts +0 -4
package/dist/commands/app.js +0 -54
package/dist/commands/create.d.ts +0 -6
package/dist/commands/create.js +0 -74
package/dist/commands/deploy.d.ts +0 -11
package/dist/commands/deploy.js +0 -255
package/dist/commands/eval.d.ts +0 -11
package/dist/commands/eval.js +0 -110
package/dist/commands/hub.d.ts +0 -3
package/dist/commands/hub.js +0 -323
package/dist/commands/observe.d.ts +0 -7
package/dist/commands/observe.js +0 -41
package/dist/commands/run-skill.d.ts +0 -6
package/dist/commands/run-skill.js +0 -102
package/dist/commands/run.d.ts +0 -9
package/dist/commands/run.js +0 -187
package/dist/commands/serve-mcp.d.ts +0 -20
package/dist/commands/serve-mcp.js +0 -67
package/dist/commands/test.d.ts +0 -9
package/dist/commands/test.js +0 -33
package/dist/constants.d.ts +0 -7
package/dist/constants.js +0 -21
package/dist/index.d.ts +0 -1
package/dist/index.js +0 -1
package/dist/tracer/terminal.d.ts +0 -62
package/dist/tracer/terminal.js +0 -404
package/dist/type.d.ts +0 -5
package/dist/type.js +0 -1
package/dist/ui/utils/terminal-input.d.ts +0 -19
package/dist/ui/utils/terminal-input.js +0 -123
package/dist/ui/utils/text-buffer.d.ts +0 -87
package/dist/ui/utils/text-buffer.js +0 -1059
package/dist/ui/utils/text-utils.d.ts +0 -37
package/dist/ui/utils/text-utils.js +0 -185
package/dist/utils/agent-v1.d.ts +0 -134
package/dist/utils/agent-v1.js +0 -213
package/dist/utils/aigne-hub/constants.d.ts +0 -6
package/dist/utils/aigne-hub/constants.js +0 -12
package/dist/utils/aigne-hub/credential.d.ts +0 -20
package/dist/utils/aigne-hub/credential.js +0 -182
package/dist/utils/aigne-hub/crypto.d.ts +0 -4
package/dist/utils/aigne-hub/crypto.js +0 -30
package/dist/utils/aigne-hub/model.d.ts +0 -13
package/dist/utils/aigne-hub/model.js +0 -122
package/dist/utils/aigne-hub/store/file.d.ts +0 -15
package/dist/utils/aigne-hub/store/file.js +0 -69
package/dist/utils/aigne-hub/store/index.d.ts +0 -5
package/dist/utils/aigne-hub/store/index.js +0 -43
package/dist/utils/aigne-hub/store/keytar.d.ts +0 -15
package/dist/utils/aigne-hub/store/keytar.js +0 -67
package/dist/utils/aigne-hub/store/migrate.d.ts +0 -2
package/dist/utils/aigne-hub/store/migrate.js +0 -57
package/dist/utils/aigne-hub/type.d.ts +0 -38
package/dist/utils/aigne-hub/type.js +0 -1
package/dist/utils/aigne-hub-user.d.ts +0 -16
package/dist/utils/aigne-hub-user.js +0 -10
package/dist/utils/ascii-logo.d.ts +0 -1
package/dist/utils/download.d.ts +0 -3
package/dist/utils/download.js +0 -19
package/dist/utils/evaluation/core.d.ts +0 -8
package/dist/utils/evaluation/core.js +0 -83
package/dist/utils/evaluation/dataset.d.ts +0 -15
package/dist/utils/evaluation/dataset.js +0 -61
package/dist/utils/evaluation/evaluator.d.ts +0 -9
package/dist/utils/evaluation/reporter.d.ts +0 -28
package/dist/utils/evaluation/reporter.js +0 -221
package/dist/utils/evaluation/runner.d.ts +0 -16
package/dist/utils/evaluation/runner.js +0 -129
package/dist/utils/evaluation/type.d.ts +0 -69
package/dist/utils/evaluation/type.js +0 -1
package/dist/utils/get-url-origin.d.ts +0 -1
package/dist/utils/get-url-origin.js +0 -8
package/dist/utils/inquirer/checkbox.d.ts +0 -55
package/dist/utils/inquirer/checkbox.js +0 -319
package/dist/utils/listr.d.ts +0 -64
package/dist/utils/listr.js +0 -265
package/dist/utils/load-aigne.d.ts +0 -18
package/dist/utils/load-aigne.js +0 -80
package/dist/utils/run-chat-loop.d.ts +0 -15
package/dist/utils/run-chat-loop.js +0 -87
package/dist/utils/run-with-aigne.d.ts +0 -27
package/dist/utils/run-with-aigne.js +0 -157
package/dist/utils/serve-mcp.d.ts +0 -9
package/dist/utils/serve-mcp.js +0 -93
package/dist/utils/spinner.d.ts +0 -1
package/dist/utils/spinner.js +0 -14
package/dist/utils/string-utils.d.ts +0 -1
package/dist/utils/string-utils.js +0 -4
package/dist/utils/time.d.ts +0 -1
package/dist/utils/time.js +0 -12
package/dist/utils/url.d.ts +0 -1
package/dist/utils/url.js +0 -3
package/dist/utils/yargs.d.ts +0 -94
package/dist/utils/yargs.js +0 -210

package/dist/utils/download.d.mts ADDED Viewed

@@ -0,0 +1,7 @@
+//#region src/utils/download.d.ts
+declare function downloadAndExtract(url: string, dir: string, options?: {
+  strip?: number;
+}): Promise<void>;
+//#endregion
+export { downloadAndExtract };
+//# sourceMappingURL=download.d.mts.map

package/dist/utils/download.d.mts.map ADDED Viewed

	@@ -0,0 +1 @@
1	+ {"version":3,"file":"download.d.mts","names":[],"sources":["../../src/utils/download.ts"],"mappings":";iBAOsB,kBAAA,CAAA,GAAA,UAAA,GAAA,UAAA,OAAA;EAAA,KAAA;AAAA,IAGY,OAAA"}

package/dist/utils/download.mjs ADDED Viewed

@@ -0,0 +1,25 @@
+import { mkdir } from "node:fs/promises";
+import { fetch } from "@aigne/core/utils/fetch";
+import { Readable } from "node:stream";
+import { finished } from "node:stream/promises";
+import { x } from "tar";
+//#region src/utils/download.ts
+async function downloadAndExtract(url, dir, options = {}) {
+	const response = await fetch(url);
+	if (!response.body) throw new Error(`Failed to download package from ${url}: Unexpected to get empty response`);
+	try {
+		await mkdir(dir, { recursive: true });
+		await finished(Readable.fromWeb(response.body).pipe(x({
+			C: dir,
+			...options
+		})));
+	} catch (error) {
+		error.message = `Failed to extract package from ${url}: ${error.message}`;
+		throw error;
+	}
+}
+//#endregion
+export { downloadAndExtract };
+//# sourceMappingURL=download.mjs.map

package/dist/utils/download.mjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"download.mjs","names":[],"sources":["../../src/utils/download.ts"],"sourcesContent":["import { mkdir } from \"node:fs/promises\";\nimport { Readable } from \"node:stream\";\nimport { finished } from \"node:stream/promises\";\nimport type { ReadableStream } from \"node:stream/web\";\nimport { fetch } from \"@aigne/core/utils/fetch\";\nimport { x } from \"tar\";\n\nexport async function downloadAndExtract(\n url: string,\n dir: string,\n options: { strip?: number } = {},\n) {\n const response = await fetch(url);\n\n if (!response.body) {\n throw new Error(`Failed to download package from ${url}: Unexpected to get empty response`);\n }\n\n try {\n await mkdir(dir, { recursive: true });\n\n await finished(\n Readable.fromWeb(response.body as unknown as ReadableStream).pipe(x({ C: dir, ...options })),\n );\n } catch (error) {\n error.message = `Failed to extract package from ${url}: ${error.message}`;\n throw error;\n }\n}\n"],"mappings":";;;;;;;AAOA,eAAsB,mBACpB,KACA,KACA,UAA8B,EAAE,EAChC;CACA,MAAM,WAAW,MAAM,MAAM,IAAI;AAEjC,KAAI,CAAC,SAAS,KACZ,OAAM,IAAI,MAAM,mCAAmC,IAAI,oCAAoC;AAG7F,KAAI;AACF,QAAM,MAAM,KAAK,EAAE,WAAW,MAAM,CAAC;AAErC,QAAM,SACJ,SAAS,QAAQ,SAAS,KAAkC,CAAC,KAAK,EAAE;GAAE,GAAG;GAAK,GAAG;GAAS,CAAC,CAAC,CAC7F;UACM,OAAO;AACd,QAAM,UAAU,kCAAkC,IAAI,IAAI,MAAM;AAChE,QAAM"}

package/dist/utils/evaluation/core.cjs ADDED Viewed

@@ -0,0 +1,84 @@
+const require_rolldown_runtime = require('../../_virtual/rolldown_runtime.cjs');
+const require_reporter = require('./reporter.cjs');
+let _aigne_listr2 = require("@aigne/listr2");
+//#region src/utils/evaluation/core.ts
+function aggregateSummary(results, duration) {
+	const total = results.length;
+	const scores = results.flatMap((r) => r.evaluations.map((e) => e.score));
+	const successRate = Number((scores.length > 0 ? scores.reduce((a, b) => a + b, 0) / scores.length : 0).toFixed(2));
+	const latencies = results.map((r) => r.latency || 0);
+	const totalTokens = results.reduce((a, r) => a + (r.usage?.inputTokens || 0) + (r.usage?.outputTokens || 0), 0);
+	const errors = results.filter((r) => r.error).length;
+	return {
+		total,
+		successRate,
+		duration: Number(duration.toFixed(3)),
+		avgLatency: latencies.reduce((a, b) => a + b, 0) / (latencies.length || 1),
+		maxLatency: Math.max(...latencies, 0),
+		minLatency: Math.min(...latencies, 0),
+		totalTokens,
+		errorCount: errors,
+		scoreDistribution: {
+			min: Math.min(...scores, 0),
+			max: Math.max(...scores, 0),
+			mean: successRate,
+			median: scores.length ? scores.sort((a, b) => a - b)[Math.floor(scores.length / 2)] : 0,
+			variance: scores.length > 1 ? scores.reduce((a, b) => a + (b - successRate) ** 2, 0) / scores.length : 0
+		}
+	};
+}
+async function runEvaluationPipeline(params) {
+	const now = Date.now();
+	const { dataset, runner, evaluators, reporters = [new require_reporter.ConsoleReporter()], options } = params;
+	const results = [];
+	const { items } = await new _aigne_listr2.Listr([{
+		title: "Load dataset",
+		task: async (ctx, _task) => {
+			ctx.items = await dataset.loadWithOptions();
+		}
+	}], { registerSignalListeners: false }).run();
+	await new _aigne_listr2.Listr(items.map((item) => {
+		const input = JSON.stringify(item.input);
+		return {
+			title: `Run evaluations with input: ${input.length > 100 ? `${input.slice(0, 100)}...` : input}`,
+			task: async (ctx, task) => {
+				task.output = `Start running agent with input: ${JSON.stringify(item.input, null, 2)}`;
+				const runnerResults = await runner.run([item], options);
+				for await (const result of runnerResults) {
+					task.output = `Start running evaluation with: ${JSON.stringify({
+						input: result.input,
+						output: result.output,
+						expected: result.expected
+					}, null, 2)}`;
+					const evaluations = [];
+					for (const evaluator of evaluators) {
+						const evals = await evaluator.evaluate(result);
+						evaluations.push(...evals);
+					}
+					results.push({
+						...result,
+						evaluations
+					});
+					task.output = `Finish running evaluation`;
+				}
+				ctx.results = results;
+			}
+		};
+	}), {
+		concurrent: options?.concurrency ? Math.min(items.length, options?.concurrency) : false,
+		exitOnError: true,
+		rendererOptions: { collapseSubtasks: false },
+		registerSignalListeners: false
+	}).run();
+	const summary = aggregateSummary(results, (Date.now() - now) / 1e3);
+	const report = {
+		dataset: dataset.name,
+		results,
+		summary
+	};
+	for (const reporter of reporters) await reporter.report(report);
+}
+//#endregion
+exports.runEvaluationPipeline = runEvaluationPipeline;

package/dist/utils/evaluation/core.mjs ADDED Viewed

@@ -0,0 +1,84 @@
+import { ConsoleReporter } from "./reporter.mjs";
+import { Listr } from "@aigne/listr2";
+//#region src/utils/evaluation/core.ts
+function aggregateSummary(results, duration) {
+	const total = results.length;
+	const scores = results.flatMap((r) => r.evaluations.map((e) => e.score));
+	const successRate = Number((scores.length > 0 ? scores.reduce((a, b) => a + b, 0) / scores.length : 0).toFixed(2));
+	const latencies = results.map((r) => r.latency || 0);
+	const totalTokens = results.reduce((a, r) => a + (r.usage?.inputTokens || 0) + (r.usage?.outputTokens || 0), 0);
+	const errors = results.filter((r) => r.error).length;
+	return {
+		total,
+		successRate,
+		duration: Number(duration.toFixed(3)),
+		avgLatency: latencies.reduce((a, b) => a + b, 0) / (latencies.length || 1),
+		maxLatency: Math.max(...latencies, 0),
+		minLatency: Math.min(...latencies, 0),
+		totalTokens,
+		errorCount: errors,
+		scoreDistribution: {
+			min: Math.min(...scores, 0),
+			max: Math.max(...scores, 0),
+			mean: successRate,
+			median: scores.length ? scores.sort((a, b) => a - b)[Math.floor(scores.length / 2)] : 0,
+			variance: scores.length > 1 ? scores.reduce((a, b) => a + (b - successRate) ** 2, 0) / scores.length : 0
+		}
+	};
+}
+async function runEvaluationPipeline(params) {
+	const now = Date.now();
+	const { dataset, runner, evaluators, reporters = [new ConsoleReporter()], options } = params;
+	const results = [];
+	const { items } = await new Listr([{
+		title: "Load dataset",
+		task: async (ctx, _task) => {
+			ctx.items = await dataset.loadWithOptions();
+		}
+	}], { registerSignalListeners: false }).run();
+	await new Listr(items.map((item) => {
+		const input = JSON.stringify(item.input);
+		return {
+			title: `Run evaluations with input: ${input.length > 100 ? `${input.slice(0, 100)}...` : input}`,
+			task: async (ctx, task) => {
+				task.output = `Start running agent with input: ${JSON.stringify(item.input, null, 2)}`;
+				const runnerResults = await runner.run([item], options);
+				for await (const result of runnerResults) {
+					task.output = `Start running evaluation with: ${JSON.stringify({
+						input: result.input,
+						output: result.output,
+						expected: result.expected
+					}, null, 2)}`;
+					const evaluations = [];
+					for (const evaluator of evaluators) {
+						const evals = await evaluator.evaluate(result);
+						evaluations.push(...evals);
+					}
+					results.push({
+						...result,
+						evaluations
+					});
+					task.output = `Finish running evaluation`;
+				}
+				ctx.results = results;
+			}
+		};
+	}), {
+		concurrent: options?.concurrency ? Math.min(items.length, options?.concurrency) : false,
+		exitOnError: true,
+		rendererOptions: { collapseSubtasks: false },
+		registerSignalListeners: false
+	}).run();
+	const summary = aggregateSummary(results, (Date.now() - now) / 1e3);
+	const report = {
+		dataset: dataset.name,
+		results,
+		summary
+	};
+	for (const reporter of reporters) await reporter.report(report);
+}
+//#endregion
+export { runEvaluationPipeline };
+//# sourceMappingURL=core.mjs.map

package/dist/utils/evaluation/core.mjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"core.mjs","names":[],"sources":["../../../src/utils/evaluation/core.ts"],"sourcesContent":["import { Listr } from \"@aigne/listr2\";\nimport { ConsoleReporter } from \"./reporter.js\";\nimport type {\n Dataset,\n DatasetItem,\n Evaluation,\n EvaluationResult,\n EvaluationSummary,\n Evaluator,\n Report,\n Reporter,\n Runner,\n RunOptions,\n} from \"./type.js\";\n\nfunction aggregateSummary(results: EvaluationResult[], duration: number): EvaluationSummary {\n const total = results.length;\n const scores = results.flatMap((r) => r.evaluations.map((e) => e.score));\n const successRate = Number(\n (scores.length > 0 ? scores.reduce((a, b) => a + b, 0) / scores.length : 0).toFixed(2),\n );\n\n const latencies = results.map((r) => r.latency || 0);\n const totalTokens = results.reduce(\n (a, r) => a + (r.usage?.inputTokens || 0) + (r.usage?.outputTokens || 0),\n 0,\n );\n\n const errors = results.filter((r) => r.error).length;\n\n return {\n total,\n successRate,\n duration: Number(duration.toFixed(3)),\n avgLatency: latencies.reduce((a, b) => a + b, 0) / (latencies.length || 1),\n maxLatency: Math.max(...latencies, 0),\n minLatency: Math.min(...latencies, 0),\n totalTokens,\n errorCount: errors,\n scoreDistribution: {\n min: Math.min(...scores, 0),\n max: Math.max(...scores, 0),\n mean: successRate,\n median: scores.length ? scores.sort((a, b) => a - b)[Math.floor(scores.length / 2)] : 0,\n variance:\n scores.length > 1\n ? scores.reduce((a, b) => a + (b - successRate) ** 2, 0) / scores.length\n : 0,\n },\n };\n}\n\ntype EvaluationPipelineContext = {\n items: DatasetItem[];\n results: EvaluationResult[];\n};\n\nexport async function runEvaluationPipeline(params: {\n dataset: Dataset;\n runner: Runner;\n evaluators: Evaluator[];\n reporters?: Reporter[];\n options?: RunOptions;\n}) {\n const now = Date.now();\n const { dataset, runner, evaluators, reporters = [new ConsoleReporter()], options } = params;\n\n const results: EvaluationPipelineContext[\"results\"] = [];\n\n const task1 = new Listr<{ items: DatasetItem[] }>(\n [\n {\n title: \"Load dataset\",\n task: async (ctx, _task) => {\n ctx.items = await dataset.loadWithOptions();\n },\n },\n ],\n {\n registerSignalListeners: false,\n },\n );\n\n const { items } = await task1.run();\n\n const task2 = new Listr<EvaluationPipelineContext>(\n items.map((item) => {\n const input = JSON.stringify(item.input);\n return {\n title: `Run evaluations with input: ${input.length > 100 ? `${input.slice(0, 100)}...` : input}`,\n task: async (ctx, task) => {\n task.output = `Start running agent with input: ${JSON.stringify(item.input, null, 2)}`;\n\n const runnerResults = await runner.run([item], options);\n\n for await (const result of runnerResults) {\n task.output = `Start running evaluation with: ${JSON.stringify(\n {\n input: result.input,\n output: result.output,\n expected: result.expected,\n },\n null,\n 2,\n )}`;\n\n const evaluations: Evaluation[] = [];\n for (const evaluator of evaluators) {\n const evals = await evaluator.evaluate(result);\n evaluations.push(...evals);\n }\n\n results.push({ ...result, evaluations });\n\n task.output = `Finish running evaluation`;\n }\n\n ctx.results = results;\n },\n };\n }),\n {\n concurrent: options?.concurrency ? Math.min(items.length, options?.concurrency) : false,\n exitOnError: true,\n rendererOptions: {\n collapseSubtasks: false,\n },\n registerSignalListeners: false,\n },\n );\n\n await task2.run();\n\n const summary: EvaluationSummary = aggregateSummary(results, (Date.now() - now) / 1000);\n const report: Report = { dataset: dataset.name, results, summary };\n\n for (const reporter of reporters) {\n await reporter.report(report);\n }\n}\n"],"mappings":";;;;AAeA,SAAS,iBAAiB,SAA6B,UAAqC;CAC1F,MAAM,QAAQ,QAAQ;CACtB,MAAM,SAAS,QAAQ,SAAS,MAAM,EAAE,YAAY,KAAK,MAAM,EAAE,MAAM,CAAC;CACxE,MAAM,cAAc,QACjB,OAAO,SAAS,IAAI,OAAO,QAAQ,GAAG,MAAM,IAAI,GAAG,EAAE,GAAG,OAAO,SAAS,GAAG,QAAQ,EAAE,CACvF;CAED,MAAM,YAAY,QAAQ,KAAK,MAAM,EAAE,WAAW,EAAE;CACpD,MAAM,cAAc,QAAQ,QACzB,GAAG,MAAM,KAAK,EAAE,OAAO,eAAe,MAAM,EAAE,OAAO,gBAAgB,IACtE,EACD;CAED,MAAM,SAAS,QAAQ,QAAQ,MAAM,EAAE,MAAM,CAAC;AAE9C,QAAO;EACL;EACA;EACA,UAAU,OAAO,SAAS,QAAQ,EAAE,CAAC;EACrC,YAAY,UAAU,QAAQ,GAAG,MAAM,IAAI,GAAG,EAAE,IAAI,UAAU,UAAU;EACxE,YAAY,KAAK,IAAI,GAAG,WAAW,EAAE;EACrC,YAAY,KAAK,IAAI,GAAG,WAAW,EAAE;EACrC;EACA,YAAY;EACZ,mBAAmB;GACjB,KAAK,KAAK,IAAI,GAAG,QAAQ,EAAE;GAC3B,KAAK,KAAK,IAAI,GAAG,QAAQ,EAAE;GAC3B,MAAM;GACN,QAAQ,OAAO,SAAS,OAAO,MAAM,GAAG,MAAM,IAAI,EAAE,CAAC,KAAK,MAAM,OAAO,SAAS,EAAE,IAAI;GACtF,UACE,OAAO,SAAS,IACZ,OAAO,QAAQ,GAAG,MAAM,KAAK,IAAI,gBAAgB,GAAG,EAAE,GAAG,OAAO,SAChE;GACP;EACF;;AAQH,eAAsB,sBAAsB,QAMzC;CACD,MAAM,MAAM,KAAK,KAAK;CACtB,MAAM,EAAE,SAAS,QAAQ,YAAY,YAAY,CAAC,IAAI,iBAAiB,CAAC,EAAE,YAAY;CAEtF,MAAM,UAAgD,EAAE;CAgBxD,MAAM,EAAE,UAAU,MAdJ,IAAI,MAChB,CACE;EACE,OAAO;EACP,MAAM,OAAO,KAAK,UAAU;AAC1B,OAAI,QAAQ,MAAM,QAAQ,iBAAiB;;EAE9C,CACF,EACD,EACE,yBAAyB,OAC1B,CACF,CAE6B,KAAK;AAgDnC,OA9Cc,IAAI,MAChB,MAAM,KAAK,SAAS;EAClB,MAAM,QAAQ,KAAK,UAAU,KAAK,MAAM;AACxC,SAAO;GACL,OAAO,+BAA+B,MAAM,SAAS,MAAM,GAAG,MAAM,MAAM,GAAG,IAAI,CAAC,OAAO;GACzF,MAAM,OAAO,KAAK,SAAS;AACzB,SAAK,SAAS,mCAAmC,KAAK,UAAU,KAAK,OAAO,MAAM,EAAE;IAEpF,MAAM,gBAAgB,MAAM,OAAO,IAAI,CAAC,KAAK,EAAE,QAAQ;AAEvD,eAAW,MAAM,UAAU,eAAe;AACxC,UAAK,SAAS,kCAAkC,KAAK,UACnD;MACE,OAAO,OAAO;MACd,QAAQ,OAAO;MACf,UAAU,OAAO;MAClB,EACD,MACA,EACD;KAED,MAAM,cAA4B,EAAE;AACpC,UAAK,MAAM,aAAa,YAAY;MAClC,MAAM,QAAQ,MAAM,UAAU,SAAS,OAAO;AAC9C,kBAAY,KAAK,GAAG,MAAM;;AAG5B,aAAQ,KAAK;MAAE,GAAG;MAAQ;MAAa,CAAC;AAExC,UAAK,SAAS;;AAGhB,QAAI,UAAU;;GAEjB;GACD,EACF;EACE,YAAY,SAAS,cAAc,KAAK,IAAI,MAAM,QAAQ,SAAS,YAAY,GAAG;EAClF,aAAa;EACb,iBAAiB,EACf,kBAAkB,OACnB;EACD,yBAAyB;EAC1B,CACF,CAEW,KAAK;CAEjB,MAAM,UAA6B,iBAAiB,UAAU,KAAK,KAAK,GAAG,OAAO,IAAK;CACvF,MAAM,SAAiB;EAAE,SAAS,QAAQ;EAAM;EAAS;EAAS;AAElE,MAAK,MAAM,YAAY,UACrB,OAAM,SAAS,OAAO,OAAO"}

package/dist/utils/evaluation/dataset.cjs ADDED Viewed

@@ -0,0 +1,47 @@
+const require_rolldown_runtime = require('../../_virtual/rolldown_runtime.cjs');
+let node_fs_promises = require("node:fs/promises");
+node_fs_promises = require_rolldown_runtime.__toESM(node_fs_promises);
+let zod = require("zod");
+//#region src/utils/evaluation/dataset.ts
+const recordSchema = zod.z.record(zod.z.any());
+const datasetItemSchema = zod.z.object({
+	id: zod.z.union([zod.z.string(), zod.z.number()]),
+	input: recordSchema,
+	output: recordSchema.optional(),
+	expected: recordSchema.optional(),
+	metadata: recordSchema.optional(),
+	tags: zod.z.array(zod.z.string()).optional(),
+	selected: zod.z.boolean().optional()
+});
+const datasetSchema = zod.z.array(datasetItemSchema);
+var FileDataset = class {
+	name = "file-dataset";
+	filePath;
+	constructor(filePath) {
+		this.filePath = filePath;
+	}
+	async load() {
+		let list;
+		try {
+			list = await node_fs_promises.default.readFile(this.filePath, "utf-8");
+		} catch (err) {
+			throw new Error(`Failed to read dataset file: ${err.message}`);
+		}
+		let parsed;
+		try {
+			parsed = JSON.parse(list);
+		} catch (err) {
+			throw new Error(`Invalid JSON in dataset file: ${err.message}`);
+		}
+		const result = await datasetSchema.safeParseAsync(parsed);
+		if (!result.success) throw new Error(`Invalid dataset file: ${JSON.stringify(result.error.format())}`);
+		return result.data;
+	}
+	async loadWithOptions() {
+		return this.load();
+	}
+};
+//#endregion
+exports.FileDataset = FileDataset;

package/dist/utils/evaluation/dataset.mjs ADDED Viewed

@@ -0,0 +1,46 @@
+import fs from "node:fs/promises";
+import { z as z$1 } from "zod";
+//#region src/utils/evaluation/dataset.ts
+const recordSchema = z$1.record(z$1.any());
+const datasetItemSchema = z$1.object({
+	id: z$1.union([z$1.string(), z$1.number()]),
+	input: recordSchema,
+	output: recordSchema.optional(),
+	expected: recordSchema.optional(),
+	metadata: recordSchema.optional(),
+	tags: z$1.array(z$1.string()).optional(),
+	selected: z$1.boolean().optional()
+});
+const datasetSchema = z$1.array(datasetItemSchema);
+var FileDataset = class {
+	name = "file-dataset";
+	filePath;
+	constructor(filePath) {
+		this.filePath = filePath;
+	}
+	async load() {
+		let list;
+		try {
+			list = await fs.readFile(this.filePath, "utf-8");
+		} catch (err) {
+			throw new Error(`Failed to read dataset file: ${err.message}`);
+		}
+		let parsed;
+		try {
+			parsed = JSON.parse(list);
+		} catch (err) {
+			throw new Error(`Invalid JSON in dataset file: ${err.message}`);
+		}
+		const result = await datasetSchema.safeParseAsync(parsed);
+		if (!result.success) throw new Error(`Invalid dataset file: ${JSON.stringify(result.error.format())}`);
+		return result.data;
+	}
+	async loadWithOptions() {
+		return this.load();
+	}
+};
+//#endregion
+export { FileDataset };
+//# sourceMappingURL=dataset.mjs.map

package/dist/utils/evaluation/dataset.mjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"dataset.mjs","names":["z"],"sources":["../../../src/utils/evaluation/dataset.ts"],"sourcesContent":["import fs from \"node:fs/promises\";\nimport { z } from \"zod\";\nimport type { Dataset, DatasetItem } from \"./type.js\";\n\nconst recordSchema = z.record(z.any());\n\nconst datasetItemSchema = z.object({\n id: z.union([z.string(), z.number()]),\n input: recordSchema,\n output: recordSchema.optional(),\n expected: recordSchema.optional(),\n metadata: recordSchema.optional(),\n tags: z.array(z.string()).optional(),\n selected: z.boolean().optional(),\n});\n\nconst datasetSchema = z.array(datasetItemSchema);\n\nexport class FileDataset implements Dataset {\n name = \"file-dataset\";\n private filePath: string;\n\n constructor(filePath: string) {\n this.filePath = filePath;\n }\n\n async load(): Promise<DatasetItem[]> {\n let list: string;\n try {\n list = await fs.readFile(this.filePath, \"utf-8\");\n } catch (err) {\n throw new Error(`Failed to read dataset file: ${err.message}`);\n }\n\n let parsed: DatasetItem[];\n try {\n parsed = JSON.parse(list);\n } catch (err) {\n throw new Error(`Invalid JSON in dataset file: ${err.message}`);\n }\n\n const result = await datasetSchema.safeParseAsync(parsed);\n if (!result.success) {\n throw new Error(`Invalid dataset file: ${JSON.stringify(result.error.format())}`);\n }\n\n return result.data;\n }\n\n async loadWithOptions(): Promise<DatasetItem[]> {\n return this.load();\n }\n}\n\nexport class JsonDataset implements Dataset {\n name = \"json-dataset\";\n private data: DatasetItem[];\n\n constructor(data: DatasetItem[]) {\n this.data = data;\n }\n\n async load(): Promise<DatasetItem[]> {\n const result = await datasetSchema.safeParseAsync(this.data);\n\n if (!result.success) {\n throw new Error(`Invalid dataset file: ${JSON.stringify(result.error.format())}`);\n }\n\n return result.data;\n }\n\n async loadWithOptions(): Promise<DatasetItem[]> {\n return this.load();\n }\n}\n"],"mappings":";;;;AAIA,MAAM,eAAeA,IAAE,OAAOA,IAAE,KAAK,CAAC;AAEtC,MAAM,oBAAoBA,IAAE,OAAO;CACjC,IAAIA,IAAE,MAAM,CAACA,IAAE,QAAQ,EAAEA,IAAE,QAAQ,CAAC,CAAC;CACrC,OAAO;CACP,QAAQ,aAAa,UAAU;CAC/B,UAAU,aAAa,UAAU;CACjC,UAAU,aAAa,UAAU;CACjC,MAAMA,IAAE,MAAMA,IAAE,QAAQ,CAAC,CAAC,UAAU;CACpC,UAAUA,IAAE,SAAS,CAAC,UAAU;CACjC,CAAC;AAEF,MAAM,gBAAgBA,IAAE,MAAM,kBAAkB;AAEhD,IAAa,cAAb,MAA4C;CAC1C,OAAO;CACP,AAAQ;CAER,YAAY,UAAkB;AAC5B,OAAK,WAAW;;CAGlB,MAAM,OAA+B;EACnC,IAAI;AACJ,MAAI;AACF,UAAO,MAAM,GAAG,SAAS,KAAK,UAAU,QAAQ;WACzC,KAAK;AACZ,SAAM,IAAI,MAAM,gCAAgC,IAAI,UAAU;;EAGhE,IAAI;AACJ,MAAI;AACF,YAAS,KAAK,MAAM,KAAK;WAClB,KAAK;AACZ,SAAM,IAAI,MAAM,iCAAiC,IAAI,UAAU;;EAGjE,MAAM,SAAS,MAAM,cAAc,eAAe,OAAO;AACzD,MAAI,CAAC,OAAO,QACV,OAAM,IAAI,MAAM,yBAAyB,KAAK,UAAU,OAAO,MAAM,QAAQ,CAAC,GAAG;AAGnF,SAAO,OAAO;;CAGhB,MAAM,kBAA0C;AAC9C,SAAO,KAAK,MAAM"}

package/dist/utils/evaluation/evaluator.cjs ADDED Viewed

@@ -0,0 +1,109 @@
+const require_rolldown_runtime = require('../../_virtual/rolldown_runtime.cjs');
+let _aigne_core = require("@aigne/core");
+let zod = require("zod");
+//#region src/utils/evaluation/evaluator.ts
+const defaultAgent = _aigne_core.AIAgent.from({
+	name: "LLMEvaluator",
+	instructions: `
+# Instructions
+You are an expert evaluator. Your task is to evaluate the quality of AI-generated responses.
+You will be given:
+1. User Input (Prompt)
+2. AI-generated Output
+3. Expected Output
+## Evaluation Methods
+Follow these three correlation checks before assigning a score:
+1. **AI Output vs User Input**: Check if the AI response is relevant to the user input.
+2. **Expected Output vs User Input**: Check if the expected output is relevant to the user input.
+3. **AI Output vs Expected Output**: Check the similarity and alignment between the AI output and the expected output.
+Then assign a rating and a score based on the overall quality.
+## Criteria
+- **Instruction following**: Does the AI response follow the prompt’s requirements?
+- **Groundedness**: Is the AI response consistent with the expected output and free from irrelevant information?
+- **Completeness**: Does the AI response fully address the task?
+- **Accuracy/Correctness**: Is the AI response factually correct and logically consistent?
+- **Fluency**: Is the AI response clear, structured, and easy to read?
+## Rating Rubric (1–5)
+- **5 - Very Good**: Highly relevant, closely aligned with the expected output, accurate, complete, and fluent.
+- **4 - Good**: Relevant, mostly aligned with the expected output, generally accurate and complete, only minor issues.
+- **3 - Ok**: Somewhat relevant, partially aligned, or missing important details.
+- **2 - Bad**: Weak relevance, low similarity with expected output, contains significant errors or omissions.
+- **1 - Very Bad**: Irrelevant, fails to align with expected output, or completely incorrect.
+## Evaluation Steps
+1. Compare the **semantic content** of AI Output vs Expected Output.
+  - Ignore JSON keys, object structure, formatting, whitespace, capitalization, and minor punctuation differences.
+  - If meaning is the same but phrasing differs slightly, assign a higher score (4–5).
+  - If AI output deviates significantly, assign a lower score (1–2).
+  - If AI output is empty, assign a lower score (1–2).
+2. Assess against criteria: instruction following, groundedness, completeness, correctness, fluency.
+3. Assign a 1–5 integer score.
+4. Provide reasoning, and explicitly justify why this result is **not** a 1/2/3 case (why it avoids being a negative example).
+# Response Output Format
+Your output must strictly follow this three-line format:
+- First line: rating (Very Good, Good, Ok, Bad, Very Bad)
+- Second line: reasoning (must include justification why it is not a 1, 2, or 3 if scored higher)
+- Third line: SCORE: [1-5]
+Example:
+Good
+The response follows most instructions and is largely consistent with the expected output, but it omits one detail. This prevents it from being 5. However, it is more accurate and complete than an "Ok" response, so it deserves 4.
+SCORE: 4
+# User Inputs and AI-generated Response
+### Input
+{{input}}
+### AI-generated Output
+{{output}}
+### Expected Output
+{{expectedOutput}}
+`,
+	inputSchema: zod.z.object({
+		input: zod.z.string().describe("The input content to analyze"),
+		output: zod.z.string().describe("The output content to analyze"),
+		expectedOutput: zod.z.string().describe("The expected output content to analyze")
+	}),
+	outputSchema: zod.z.object({
+		rating: zod.z.enum([
+			"Very Good",
+			"Good",
+			"Ok",
+			"Bad",
+			"Very Bad"
+		]).describe("The rating of the output"),
+		reasoning: zod.z.string().describe("The reasoning of the rating, including justification"),
+		score: zod.z.number().int().min(1).max(5).describe("The score of the output, 1–5, 5 is the best")
+	})
+});
+var LLMEvaluator = class {
+	name = "llm-as-judge";
+	constructor(aigne = new _aigne_core.AIGNE(), agent = defaultAgent) {
+		this.aigne = aigne;
+		this.agent = agent;
+	}
+	async evaluate(dataset) {
+		const result = await this.aigne.invoke(this.agent, {
+			input: typeof dataset.input === "string" ? dataset.input : JSON.stringify(dataset.input, null, 2),
+			output: dataset.output ? JSON.stringify(dataset.output, null, 2) : "",
+			expectedOutput: JSON.stringify(dataset.expected, null, 2)
+		}, { returnMetadata: true });
+		return [{
+			name: this.name,
+			rating: result.rating,
+			score: result.score,
+			reason: result.reasoning,
+			usage: result?.$meta?.usage ?? {}
+		}];
+	}
+};
+//#endregion
+exports.LLMEvaluator = LLMEvaluator;

package/dist/utils/evaluation/{evaluator.js → evaluator.mjs} RENAMED Viewed

@@ -1,6 +1,10 @@
 import { AIAgent, AIGNE } from "@aigne/core";
-import { z } from "zod";
-const EVALUATOR_PROMPT = `
+import { z as z$1 } from "zod";
+//#region src/utils/evaluation/evaluator.ts
+const defaultAgent = AIAgent.from({
+	name: "LLMEvaluator",
+	instructions: `
 # Instructions
 You are an expert evaluator. Your task is to evaluate the quality of AI-generated responses.
 You will be given:
@@ -60,47 +64,46 @@ SCORE: 4
 ### Expected Output
 {{expectedOutput}}
-`;
-const defaultAgent = AIAgent.from({
-    name: "LLMEvaluator",
-    instructions: EVALUATOR_PROMPT,
-    inputSchema: z.object({
-        input: z.string().describe("The input content to analyze"),
-        output: z.string().describe("The output content to analyze"),
-        expectedOutput: z.string().describe("The expected output content to analyze"),
-    }),
-    outputSchema: z.object({
-        rating: z
-            .enum(["Very Good", "Good", "Ok", "Bad", "Very Bad"])
-            .describe("The rating of the output"),
-        reasoning: z.string().describe("The reasoning of the rating, including justification"),
-        score: z.number().int().min(1).max(5).describe("The score of the output, 1–5, 5 is the best"),
-    }),
+`,
+	inputSchema: z$1.object({
+		input: z$1.string().describe("The input content to analyze"),
+		output: z$1.string().describe("The output content to analyze"),
+		expectedOutput: z$1.string().describe("The expected output content to analyze")
+	}),
+	outputSchema: z$1.object({
+		rating: z$1.enum([
+			"Very Good",
+			"Good",
+			"Ok",
+			"Bad",
+			"Very Bad"
+		]).describe("The rating of the output"),
+		reasoning: z$1.string().describe("The reasoning of the rating, including justification"),
+		score: z$1.number().int().min(1).max(5).describe("The score of the output, 1–5, 5 is the best")
+	})
 });
-export class LLMEvaluator {
-    aigne;
-    agent;
-    name = "llm-as-judge";
-    constructor(aigne = new AIGNE(), agent = defaultAgent) {
-        this.aigne = aigne;
-        this.agent = agent;
-    }
-    async evaluate(dataset) {
-        const result = await this.aigne.invoke(this.agent, {
-            input: typeof dataset.input === "string"
-                ? dataset.input
-                : JSON.stringify(dataset.input, null, 2),
-            output: dataset.output ? JSON.stringify(dataset.output, null, 2) : "",
-            expectedOutput: JSON.stringify(dataset.expected, null, 2),
-        }, { returnMetadata: true });
-        return [
-            {
-                name: this.name,
-                rating: result.rating,
-                score: result.score,
-                reason: result.reasoning,
-                usage: result?.$meta?.usage ?? {},
-            },
-        ];
-    }
-}
+var LLMEvaluator = class {
+	name = "llm-as-judge";
+	constructor(aigne = new AIGNE(), agent = defaultAgent) {
+		this.aigne = aigne;
+		this.agent = agent;
+	}
+	async evaluate(dataset) {
+		const result = await this.aigne.invoke(this.agent, {
+			input: typeof dataset.input === "string" ? dataset.input : JSON.stringify(dataset.input, null, 2),
+			output: dataset.output ? JSON.stringify(dataset.output, null, 2) : "",
+			expectedOutput: JSON.stringify(dataset.expected, null, 2)
+		}, { returnMetadata: true });
+		return [{
+			name: this.name,
+			rating: result.rating,
+			score: result.score,
+			reason: result.reasoning,
+			usage: result?.$meta?.usage ?? {}
+		}];
+	}
+};
+//#endregion
+export { LLMEvaluator };
+//# sourceMappingURL=evaluator.mjs.map

package/dist/utils/evaluation/evaluator.mjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"evaluator.mjs","names":["z"],"sources":["../../../src/utils/evaluation/evaluator.ts"],"sourcesContent":["import { type Agent, AIAgent, AIGNE } from \"@aigne/core\";\nimport { z } from \"zod\";\nimport type { DatasetItem, Evaluation, Evaluator } from \"./type.js\";\n\nconst EVALUATOR_PROMPT = `\n# Instructions\nYou are an expert evaluator. Your task is to evaluate the quality of AI-generated responses.\nYou will be given:\n1. User Input (Prompt)\n2. AI-generated Output\n3. Expected Output\n\n## Evaluation Methods\nFollow these three correlation checks before assigning a score:\n1. **AI Output vs User Input**: Check if the AI response is relevant to the user input.\n2. **Expected Output vs User Input**: Check if the expected output is relevant to the user input.\n3. **AI Output vs Expected Output**: Check the similarity and alignment between the AI output and the expected output.\n\nThen assign a rating and a score based on the overall quality.\n\n## Criteria\n- **Instruction following**: Does the AI response follow the prompt’s requirements?\n- **Groundedness**: Is the AI response consistent with the expected output and free from irrelevant information?\n- **Completeness**: Does the AI response fully address the task?\n- **Accuracy/Correctness**: Is the AI response factually correct and logically consistent?\n- **Fluency**: Is the AI response clear, structured, and easy to read?\n\n## Rating Rubric (1–5)\n- **5 - Very Good**: Highly relevant, closely aligned with the expected output, accurate, complete, and fluent.\n- **4 - Good**: Relevant, mostly aligned with the expected output, generally accurate and complete, only minor issues.\n- **3 - Ok**: Somewhat relevant, partially aligned, or missing important details.\n- **2 - Bad**: Weak relevance, low similarity with expected output, contains significant errors or omissions.\n- **1 - Very Bad**: Irrelevant, fails to align with expected output, or completely incorrect.\n\n## Evaluation Steps\n1. Compare the **semantic content** of AI Output vs Expected Output.\n - Ignore JSON keys, object structure, formatting, whitespace, capitalization, and minor punctuation differences.\n - If meaning is the same but phrasing differs slightly, assign a higher score (4–5).\n - If AI output deviates significantly, assign a lower score (1–2).\n - If AI output is empty, assign a lower score (1–2).\n2. Assess against criteria: instruction following, groundedness, completeness, correctness, fluency.\n3. Assign a 1–5 integer score.\n4. Provide reasoning, and explicitly justify why this result is **not** a 1/2/3 case (why it avoids being a negative example).\n\n# Response Output Format\nYour output must strictly follow this three-line format:\n- First line: rating (Very Good, Good, Ok, Bad, Very Bad)\n- Second line: reasoning (must include justification why it is not a 1, 2, or 3 if scored higher)\n- Third line: SCORE: [1-5]\n\nExample:\nGood\nThe response follows most instructions and is largely consistent with the expected output, but it omits one detail. This prevents it from being 5. However, it is more accurate and complete than an \"Ok\" response, so it deserves 4.\nSCORE: 4\n\n# User Inputs and AI-generated Response\n### Input\n{{input}}\n\n### AI-generated Output\n{{output}}\n\n### Expected Output\n{{expectedOutput}}\n`;\n\nconst defaultAgent = AIAgent.from({\n name: \"LLMEvaluator\",\n instructions: EVALUATOR_PROMPT,\n inputSchema: z.object({\n input: z.string().describe(\"The input content to analyze\"),\n output: z.string().describe(\"The output content to analyze\"),\n expectedOutput: z.string().describe(\"The expected output content to analyze\"),\n }),\n outputSchema: z.object({\n rating: z\n .enum([\"Very Good\", \"Good\", \"Ok\", \"Bad\", \"Very Bad\"])\n .describe(\"The rating of the output\"),\n reasoning: z.string().describe(\"The reasoning of the rating, including justification\"),\n score: z.number().int().min(1).max(5).describe(\"The score of the output, 1–5, 5 is the best\"),\n }),\n});\n\nexport class LLMEvaluator implements Evaluator {\n name = \"llm-as-judge\";\n\n constructor(\n private readonly aigne: AIGNE = new AIGNE(),\n private readonly agent: Agent = defaultAgent,\n ) {}\n\n async evaluate(dataset: DatasetItem): Promise<Evaluation[]> {\n const result = await this.aigne.invoke(\n this.agent,\n {\n input:\n typeof dataset.input === \"string\"\n ? dataset.input\n : JSON.stringify(dataset.input, null, 2),\n output: dataset.output ? JSON.stringify(dataset.output, null, 2) : \"\",\n expectedOutput: JSON.stringify(dataset.expected, null, 2),\n },\n { returnMetadata: true },\n );\n\n return [\n {\n name: this.name,\n rating: result.rating,\n score: result.score,\n reason: result.reasoning,\n usage: result?.$meta?.usage ?? {},\n },\n ];\n }\n}\n"],"mappings":";;;;AAkEA,MAAM,eAAe,QAAQ,KAAK;CAChC,MAAM;CACN,cAhEuB;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;CAiEvB,aAAaA,IAAE,OAAO;EACpB,OAAOA,IAAE,QAAQ,CAAC,SAAS,+BAA+B;EAC1D,QAAQA,IAAE,QAAQ,CAAC,SAAS,gCAAgC;EAC5D,gBAAgBA,IAAE,QAAQ,CAAC,SAAS,yCAAyC;EAC9E,CAAC;CACF,cAAcA,IAAE,OAAO;EACrB,QAAQA,IACL,KAAK;GAAC;GAAa;GAAQ;GAAM;GAAO;GAAW,CAAC,CACpD,SAAS,2BAA2B;EACvC,WAAWA,IAAE,QAAQ,CAAC,SAAS,uDAAuD;EACtF,OAAOA,IAAE,QAAQ,CAAC,KAAK,CAAC,IAAI,EAAE,CAAC,IAAI,EAAE,CAAC,SAAS,8CAA8C;EAC9F,CAAC;CACH,CAAC;AAEF,IAAa,eAAb,MAA+C;CAC7C,OAAO;CAEP,YACE,AAAiB,QAAe,IAAI,OAAO,EAC3C,AAAiB,QAAe,cAChC;EAFiB;EACA;;CAGnB,MAAM,SAAS,SAA6C;EAC1D,MAAM,SAAS,MAAM,KAAK,MAAM,OAC9B,KAAK,OACL;GACE,OACE,OAAO,QAAQ,UAAU,WACrB,QAAQ,QACR,KAAK,UAAU,QAAQ,OAAO,MAAM,EAAE;GAC5C,QAAQ,QAAQ,SAAS,KAAK,UAAU,QAAQ,QAAQ,MAAM,EAAE,GAAG;GACnE,gBAAgB,KAAK,UAAU,QAAQ,UAAU,MAAM,EAAE;GAC1D,EACD,EAAE,gBAAgB,MAAM,CACzB;AAED,SAAO,CACL;GACE,MAAM,KAAK;GACX,QAAQ,OAAO;GACf,OAAO,OAAO;GACd,QAAQ,OAAO;GACf,OAAO,QAAQ,OAAO,SAAS,EAAE;GAClC,CACF"}