npm - @wix/evalforge-types - Versions diffs - 0.5.0 → 0.7.0 - Mend

@wix/evalforge-types 0.5.0 → 0.7.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

package/build/index.js +209 -163
package/build/index.js.map +4 -4
package/build/index.mjs +205 -163
package/build/index.mjs.map +4 -4
package/build/types/evaluation/eval-result.d.ts +14 -0
package/build/types/evaluation/eval-run.d.ts +14 -0
package/build/types/scenario/assertions.d.ts +57 -0
package/build/types/scenario/index.d.ts +1 -0
package/build/types/scenario/test-scenario.d.ts +48 -0
package/package.json +2 -2

package/build/index.mjs CHANGED Viewed

@@ -374,34 +374,67 @@ var TestSchema = z17.discriminatedUnion("type", [
   PlaywrightNLTestSchema
 ]);
-// src/scenario/environment.ts
+// src/scenario/assertions.ts
 import { z as z18 } from "zod";
-var LocalProjectConfigSchema = z18.object({
+var SkillWasCalledAssertionSchema = z18.object({
+  type: z18.literal("skill_was_called"),
+  /** Name of the skill that must have been called (matched against trace Skill tool args) */
+  skillName: z18.string()
+});
+var BuildPassedAssertionSchema = z18.object({
+  type: z18.literal("build_passed"),
+  /** Command to run (default: "yarn build") */
+  command: z18.string().optional(),
+  /** Expected exit code (default: 0) */
+  expectedExitCode: z18.number().int().optional()
+});
+var LlmJudgeAssertionSchema = z18.object({
+  type: z18.literal("llm_judge"),
+  /** Prompt template; placeholders: {{output}}, {{cwd}}, {{changedFiles}}, {{trace}} */
+  prompt: z18.string(),
+  /** Optional system prompt for the judge (default asks for JSON with score) */
+  systemPrompt: z18.string().optional(),
+  /** Minimum score to pass (0–100, default 70) */
+  minScore: z18.number().int().min(0).max(100).optional(),
+  /** Model for the judge (e.g. claude-3-5-haiku) */
+  model: z18.string().optional(),
+  maxTokens: z18.number().int().optional(),
+  temperature: z18.number().min(0).max(1).optional()
+});
+var AssertionSchema = z18.discriminatedUnion("type", [
+  SkillWasCalledAssertionSchema,
+  BuildPassedAssertionSchema,
+  LlmJudgeAssertionSchema
+]);
+// src/scenario/environment.ts
+import { z as z19 } from "zod";
+var LocalProjectConfigSchema = z19.object({
   /** Template ID to use for the local project */
-  templateId: z18.string().optional(),
+  templateId: z19.string().optional(),
   /** Files to create in the project */
-  files: z18.array(
-    z18.object({
-      path: z18.string().min(1),
-      content: z18.string().min(1)
+  files: z19.array(
+    z19.object({
+      path: z19.string().min(1),
+      content: z19.string().min(1)
     })
   ).optional()
 });
-var MetaSiteConfigSchema = z18.object({
-  configurations: z18.array(
-    z18.object({
-      name: z18.string().min(1),
-      apiCalls: z18.array(
-        z18.object({
-          url: z18.string().url(),
-          method: z18.enum(["POST", "PUT"]),
-          body: z18.string()
+var MetaSiteConfigSchema = z19.object({
+  configurations: z19.array(
+    z19.object({
+      name: z19.string().min(1),
+      apiCalls: z19.array(
+        z19.object({
+          url: z19.string().url(),
+          method: z19.enum(["POST", "PUT"]),
+          body: z19.string()
         })
       )
     })
   ).optional()
 });
-var EnvironmentSchema = z18.object({
+var EnvironmentSchema = z19.object({
   /** Local project configuration */
   localProject: LocalProjectConfigSchema.optional(),
   /** Meta site configuration */
@@ -409,18 +442,20 @@ var EnvironmentSchema = z18.object({
 });
 // src/scenario/test-scenario.ts
-import { z as z19 } from "zod";
-var ExpectedFileSchema = z19.object({
+import { z as z20 } from "zod";
+var ExpectedFileSchema = z20.object({
   /** Relative path where the file should be created */
-  path: z19.string(),
+  path: z20.string(),
   /** Optional expected content */
-  content: z19.string().optional()
+  content: z20.string().optional()
 });
 var TestScenarioSchema = TenantEntitySchema.extend({
   /** The prompt sent to the agent to trigger the task */
-  triggerPrompt: z19.string().min(10),
+  triggerPrompt: z20.string().min(10),
   /** ID of the template to use for this scenario */
-  templateId: z19.string().optional()
+  templateId: z20.string().optional(),
+  /** Assertions to evaluate for this scenario */
+  assertions: z20.array(AssertionSchema).optional()
 });
 var CreateTestScenarioInputSchema = TestScenarioSchema.omit({
   id: true,
@@ -431,10 +466,10 @@ var CreateTestScenarioInputSchema = TestScenarioSchema.omit({
 var UpdateTestScenarioInputSchema = CreateTestScenarioInputSchema.partial();
 // src/suite/test-suite.ts
-import { z as z20 } from "zod";
+import { z as z21 } from "zod";
 var TestSuiteSchema = TenantEntitySchema.extend({
   /** IDs of test scenarios in this suite */
-  scenarioIds: z20.array(z20.string())
+  scenarioIds: z21.array(z21.string())
 });
 var CreateTestSuiteInputSchema = TestSuiteSchema.omit({
   id: true,
@@ -445,21 +480,21 @@ var CreateTestSuiteInputSchema = TestSuiteSchema.omit({
 var UpdateTestSuiteInputSchema = CreateTestSuiteInputSchema.partial();
 // src/evaluation/metrics.ts
-import { z as z21 } from "zod";
-var TokenUsageSchema = z21.object({
-  prompt: z21.number(),
-  completion: z21.number(),
-  total: z21.number()
-});
-var EvalMetricsSchema = z21.object({
-  totalAssertions: z21.number(),
-  passed: z21.number(),
-  failed: z21.number(),
-  skipped: z21.number(),
-  errors: z21.number(),
-  passRate: z21.number(),
-  avgDuration: z21.number(),
-  totalDuration: z21.number()
+import { z as z22 } from "zod";
+var TokenUsageSchema = z22.object({
+  prompt: z22.number(),
+  completion: z22.number(),
+  total: z22.number()
+});
+var EvalMetricsSchema = z22.object({
+  totalAssertions: z22.number(),
+  passed: z22.number(),
+  failed: z22.number(),
+  skipped: z22.number(),
+  errors: z22.number(),
+  passRate: z22.number(),
+  avgDuration: z22.number(),
+  totalDuration: z22.number()
 });
 var EvalStatus = /* @__PURE__ */ ((EvalStatus2) => {
   EvalStatus2["PENDING"] = "pending";
@@ -469,7 +504,7 @@ var EvalStatus = /* @__PURE__ */ ((EvalStatus2) => {
   EvalStatus2["CANCELLED"] = "cancelled";
   return EvalStatus2;
 })(EvalStatus || {});
-var EvalStatusSchema = z21.enum(EvalStatus);
+var EvalStatusSchema = z22.enum(EvalStatus);
 var LLMStepType = /* @__PURE__ */ ((LLMStepType2) => {
   LLMStepType2["COMPLETION"] = "completion";
   LLMStepType2["TOOL_USE"] = "tool_use";
@@ -477,129 +512,46 @@ var LLMStepType = /* @__PURE__ */ ((LLMStepType2) => {
   LLMStepType2["THINKING"] = "thinking";
   return LLMStepType2;
 })(LLMStepType || {});
-var LLMTraceStepSchema = z21.object({
-  id: z21.string(),
-  stepNumber: z21.number(),
-  type: z21.enum(LLMStepType),
-  model: z21.string(),
-  provider: z21.string(),
-  startedAt: z21.string(),
-  durationMs: z21.number(),
+var LLMTraceStepSchema = z22.object({
+  id: z22.string(),
+  stepNumber: z22.number(),
+  type: z22.enum(LLMStepType),
+  model: z22.string(),
+  provider: z22.string(),
+  startedAt: z22.string(),
+  durationMs: z22.number(),
   tokenUsage: TokenUsageSchema,
-  costUsd: z21.number(),
-  toolName: z21.string().optional(),
-  toolArguments: z21.string().optional(),
-  inputPreview: z21.string().optional(),
-  outputPreview: z21.string().optional(),
-  success: z21.boolean(),
-  error: z21.string().optional()
-});
-var LLMBreakdownStatsSchema = z21.object({
-  count: z21.number(),
-  durationMs: z21.number(),
-  tokens: z21.number(),
-  costUsd: z21.number()
-});
-var LLMTraceSummarySchema = z21.object({
-  totalSteps: z21.number(),
-  totalDurationMs: z21.number(),
+  costUsd: z22.number(),
+  toolName: z22.string().optional(),
+  toolArguments: z22.string().optional(),
+  inputPreview: z22.string().optional(),
+  outputPreview: z22.string().optional(),
+  success: z22.boolean(),
+  error: z22.string().optional()
+});
+var LLMBreakdownStatsSchema = z22.object({
+  count: z22.number(),
+  durationMs: z22.number(),
+  tokens: z22.number(),
+  costUsd: z22.number()
+});
+var LLMTraceSummarySchema = z22.object({
+  totalSteps: z22.number(),
+  totalDurationMs: z22.number(),
   totalTokens: TokenUsageSchema,
-  totalCostUsd: z21.number(),
-  stepTypeBreakdown: z21.record(z21.string(), LLMBreakdownStatsSchema).optional(),
-  modelBreakdown: z21.record(z21.string(), LLMBreakdownStatsSchema),
-  modelsUsed: z21.array(z21.string())
-});
-var LLMTraceSchema = z21.object({
-  id: z21.string(),
-  steps: z21.array(LLMTraceStepSchema),
+  totalCostUsd: z22.number(),
+  stepTypeBreakdown: z22.record(z22.string(), LLMBreakdownStatsSchema).optional(),
+  modelBreakdown: z22.record(z22.string(), LLMBreakdownStatsSchema),
+  modelsUsed: z22.array(z22.string())
+});
+var LLMTraceSchema = z22.object({
+  id: z22.string(),
+  steps: z22.array(LLMTraceStepSchema),
   summary: LLMTraceSummarySchema
 });
 // src/evaluation/eval-result.ts
-import { z as z22 } from "zod";
-var AssertionResultStatus = /* @__PURE__ */ ((AssertionResultStatus2) => {
-  AssertionResultStatus2["PASSED"] = "passed";
-  AssertionResultStatus2["FAILED"] = "failed";
-  AssertionResultStatus2["SKIPPED"] = "skipped";
-  AssertionResultStatus2["ERROR"] = "error";
-  return AssertionResultStatus2;
-})(AssertionResultStatus || {});
-var AssertionResultSchema = z22.object({
-  id: z22.string(),
-  assertionId: z22.string(),
-  assertionType: z22.string(),
-  assertionName: z22.string(),
-  status: z22.enum(AssertionResultStatus),
-  message: z22.string().optional(),
-  expected: z22.string().optional(),
-  actual: z22.string().optional(),
-  duration: z22.number().optional(),
-  details: z22.record(z22.string(), z22.unknown()).optional(),
-  llmTraceSteps: z22.array(LLMTraceStepSchema).optional()
-});
-var EvalRunResultSchema = z22.object({
-  id: z22.string(),
-  targetId: z22.string(),
-  targetName: z22.string().optional(),
-  scenarioId: z22.string(),
-  scenarioName: z22.string(),
-  modelConfig: ModelConfigSchema.optional(),
-  assertionResults: z22.array(AssertionResultSchema),
-  metrics: EvalMetricsSchema.optional(),
-  passed: z22.number(),
-  failed: z22.number(),
-  passRate: z22.number(),
-  duration: z22.number(),
-  outputText: z22.string().optional(),
-  files: z22.array(ExpectedFileSchema).optional(),
-  startedAt: z22.string().optional(),
-  completedAt: z22.string().optional(),
-  llmTrace: LLMTraceSchema.optional()
-});
-var PromptResultSchema = z22.object({
-  text: z22.string(),
-  files: z22.array(z22.unknown()).optional(),
-  finishReason: z22.string().optional(),
-  reasoning: z22.string().optional(),
-  reasoningDetails: z22.unknown().optional(),
-  toolCalls: z22.array(z22.unknown()).optional(),
-  toolResults: z22.array(z22.unknown()).optional(),
-  warnings: z22.array(z22.unknown()).optional(),
-  sources: z22.array(z22.unknown()).optional(),
-  steps: z22.array(z22.unknown()),
-  generationTimeMs: z22.number(),
-  prompt: z22.string(),
-  systemPrompt: z22.string(),
-  usage: z22.object({
-    totalTokens: z22.number().optional(),
-    totalMicrocentsSpent: z22.number().optional()
-  })
-});
-var EvaluationResultSchema = z22.object({
-  id: z22.string(),
-  runId: z22.string(),
-  timestamp: z22.number(),
-  promptResult: PromptResultSchema,
-  testResults: z22.array(z22.unknown()),
-  tags: z22.array(z22.string()).optional(),
-  feedback: z22.string().optional(),
-  score: z22.number(),
-  suiteId: z22.string().optional()
-});
-var LeanEvaluationResultSchema = z22.object({
-  id: z22.string(),
-  runId: z22.string(),
-  timestamp: z22.number(),
-  tags: z22.array(z22.string()).optional(),
-  scenarioId: z22.string(),
-  scenarioVersion: z22.number().optional(),
-  targetId: z22.string(),
-  targetVersion: z22.number().optional(),
-  suiteId: z22.string().optional(),
-  score: z22.number(),
-  time: z22.number().optional(),
-  microcentsSpent: z22.number().optional()
-});
+import { z as z25 } from "zod";
 // src/evaluation/eval-run.ts
 import { z as z24 } from "zod";
@@ -812,11 +764,97 @@ var EvaluationLogSchema = z24.object({
 });
 var LLM_TIMEOUT = 12e4;
+// src/evaluation/eval-result.ts
+var AssertionResultStatus = /* @__PURE__ */ ((AssertionResultStatus2) => {
+  AssertionResultStatus2["PASSED"] = "passed";
+  AssertionResultStatus2["FAILED"] = "failed";
+  AssertionResultStatus2["SKIPPED"] = "skipped";
+  AssertionResultStatus2["ERROR"] = "error";
+  return AssertionResultStatus2;
+})(AssertionResultStatus || {});
+var AssertionResultSchema = z25.object({
+  id: z25.string(),
+  assertionId: z25.string(),
+  assertionType: z25.string(),
+  assertionName: z25.string(),
+  status: z25.enum(AssertionResultStatus),
+  message: z25.string().optional(),
+  expected: z25.string().optional(),
+  actual: z25.string().optional(),
+  duration: z25.number().optional(),
+  details: z25.record(z25.string(), z25.unknown()).optional(),
+  llmTraceSteps: z25.array(LLMTraceStepSchema).optional()
+});
+var EvalRunResultSchema = z25.object({
+  id: z25.string(),
+  targetId: z25.string(),
+  targetName: z25.string().optional(),
+  scenarioId: z25.string(),
+  scenarioName: z25.string(),
+  modelConfig: ModelConfigSchema.optional(),
+  assertionResults: z25.array(AssertionResultSchema),
+  metrics: EvalMetricsSchema.optional(),
+  passed: z25.number(),
+  failed: z25.number(),
+  passRate: z25.number(),
+  duration: z25.number(),
+  outputText: z25.string().optional(),
+  files: z25.array(ExpectedFileSchema).optional(),
+  fileDiffs: z25.array(DiffContentSchema).optional(),
+  startedAt: z25.string().optional(),
+  completedAt: z25.string().optional(),
+  llmTrace: LLMTraceSchema.optional()
+});
+var PromptResultSchema = z25.object({
+  text: z25.string(),
+  files: z25.array(z25.unknown()).optional(),
+  finishReason: z25.string().optional(),
+  reasoning: z25.string().optional(),
+  reasoningDetails: z25.unknown().optional(),
+  toolCalls: z25.array(z25.unknown()).optional(),
+  toolResults: z25.array(z25.unknown()).optional(),
+  warnings: z25.array(z25.unknown()).optional(),
+  sources: z25.array(z25.unknown()).optional(),
+  steps: z25.array(z25.unknown()),
+  generationTimeMs: z25.number(),
+  prompt: z25.string(),
+  systemPrompt: z25.string(),
+  usage: z25.object({
+    totalTokens: z25.number().optional(),
+    totalMicrocentsSpent: z25.number().optional()
+  })
+});
+var EvaluationResultSchema = z25.object({
+  id: z25.string(),
+  runId: z25.string(),
+  timestamp: z25.number(),
+  promptResult: PromptResultSchema,
+  testResults: z25.array(z25.unknown()),
+  tags: z25.array(z25.string()).optional(),
+  feedback: z25.string().optional(),
+  score: z25.number(),
+  suiteId: z25.string().optional()
+});
+var LeanEvaluationResultSchema = z25.object({
+  id: z25.string(),
+  runId: z25.string(),
+  timestamp: z25.number(),
+  tags: z25.array(z25.string()).optional(),
+  scenarioId: z25.string(),
+  scenarioVersion: z25.number().optional(),
+  targetId: z25.string(),
+  targetVersion: z25.number().optional(),
+  suiteId: z25.string().optional(),
+  score: z25.number(),
+  time: z25.number().optional(),
+  microcentsSpent: z25.number().optional()
+});
 // src/project/project.ts
-import { z as z25 } from "zod";
+import { z as z26 } from "zod";
 var ProjectSchema = BaseEntitySchema.extend({
-  appId: z25.string().optional().describe("The ID of the app in Dev Center"),
-  appSecret: z25.string().optional().describe("The secret of the app in Dev Center")
+  appId: z26.string().optional().describe("The ID of the app in Dev Center"),
+  appSecret: z26.string().optional().describe("The secret of the app in Dev Center")
 });
 var CreateProjectInputSchema = ProjectSchema.omit({
   id: true,
@@ -827,10 +865,10 @@ var CreateProjectInputSchema = ProjectSchema.omit({
 var UpdateProjectInputSchema = CreateProjectInputSchema.partial();
 // src/template/template.ts
-import { z as z26 } from "zod";
+import { z as z27 } from "zod";
 var TemplateSchema = TenantEntitySchema.extend({
   /** URL to download the template from */
-  downloadUrl: z26.url()
+  downloadUrl: z27.url()
 });
 var CreateTemplateInputSchema = TemplateSchema.omit({
   id: true,
@@ -847,9 +885,11 @@ export {
   ApiCallSchema,
   AssertionResultSchema,
   AssertionResultStatus,
+  AssertionSchema,
   BaseEntitySchema,
   BaseTestSchema,
   BuildCheckTestSchema,
+  BuildPassedAssertionSchema,
   CommandExecutionSchema,
   CommandExecutionTestSchema,
   CreateAgentInputSchema,
@@ -891,6 +931,7 @@ export {
   LeanEvaluationResultSchema,
   LiveTraceEventSchema,
   LiveTraceEventType,
+  LlmJudgeAssertionSchema,
   LocalProjectConfigSchema,
   MCPServerConfigSchema,
   MetaSiteConfigSchema,
@@ -906,6 +947,7 @@ export {
   SkillMetadataSchema,
   SkillSchema,
   SkillVersionSchema,
+  SkillWasCalledAssertionSchema,
   SkillsGroupSchema,
   TRACE_EVENT_PREFIX,
   TargetSchema,