npm - @wix/evalforge-types - Versions diffs - 0.68.0 → 0.70.0 - Mend

@wix/evalforge-types 0.68.0 → 0.70.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

package/build/index.js +27 -38
package/build/index.js.map +3 -3
package/build/index.mjs +25 -35
package/build/index.mjs.map +3 -3
package/build/types/evaluation/eval-run.d.ts +87 -169
package/package.json +2 -2

package/build/index.js CHANGED Viewed

@@ -100,9 +100,6 @@ __export(index_exports, {
   EvaluationResultSchema: () => EvaluationResultSchema,
   ExecutionTraceSchema: () => ExecutionTraceSchema,
   ExpectedFileSchema: () => ExpectedFileSchema,
-  FailureAnalysisSchema: () => FailureAnalysisSchema,
-  FailureCategory: () => FailureCategory,
-  FailureSeverity: () => FailureSeverity,
   FileContentCheckSchema: () => FileContentCheckSchema,
   FileContentTestSchema: () => FileContentTestSchema,
   FileModificationSchema: () => FileModificationSchema,
@@ -139,6 +136,8 @@ __export(index_exports, {
   RUN_COMMAND_LABELS: () => RUN_COMMAND_LABELS,
   RuleSchema: () => RuleSchema,
   RuleTypeSchema: () => RuleTypeSchema,
+  RunAnalysisFindingSchema: () => RunAnalysisFindingSchema,
+  RunAnalysisSchema: () => RunAnalysisSchema,
   SEMVER_REGEX: () => SEMVER_REGEX,
   SKILL_FOLDER_NAME_REGEX: () => SKILL_FOLDER_NAME_REGEX,
   SYSTEM_ASSERTIONS: () => SYSTEM_ASSERTIONS,
@@ -1239,22 +1238,6 @@ var TriggerSchema = import_zod28.z.object({
   metadata: TriggerMetadataSchema.optional(),
   type: import_zod28.z.nativeEnum(TriggerType)
 });
-var FailureCategory = /* @__PURE__ */ ((FailureCategory2) => {
-  FailureCategory2["MISSING_FILE"] = "missing_file";
-  FailureCategory2["WRONG_CONTENT"] = "wrong_content";
-  FailureCategory2["BUILD_ERROR"] = "build_error";
-  FailureCategory2["TEST_FAILURE"] = "test_failure";
-  FailureCategory2["RUNTIME_ERROR"] = "runtime_error";
-  FailureCategory2["PERFORMANCE"] = "performance";
-  return FailureCategory2;
-})(FailureCategory || {});
-var FailureSeverity = /* @__PURE__ */ ((FailureSeverity2) => {
-  FailureSeverity2["CRITICAL"] = "critical";
-  FailureSeverity2["HIGH"] = "high";
-  FailureSeverity2["MEDIUM"] = "medium";
-  FailureSeverity2["LOW"] = "low";
-  return FailureSeverity2;
-})(FailureSeverity || {});
 var DiffLineTypeSchema = import_zod28.z.enum(["added", "removed", "unchanged"]);
 var DiffLineSchema = import_zod28.z.object({
   type: DiffLineTypeSchema,
@@ -1307,20 +1290,23 @@ var ExecutionTraceSchema = import_zod28.z.object({
   apiCalls: import_zod28.z.array(ApiCallSchema),
   totalDuration: import_zod28.z.number()
 });
-var FailureAnalysisSchema = import_zod28.z.object({
-  category: import_zod28.z.enum(FailureCategory),
-  severity: import_zod28.z.enum(FailureSeverity),
+var RunAnalysisFindingSchema = import_zod28.z.object({
+  category: import_zod28.z.enum([
+    "failure_pattern",
+    "cost_waste",
+    "flakiness",
+    "inefficiency",
+    "positive"
+  ]),
+  severity: import_zod28.z.enum(["high", "medium", "low"]),
+  description: import_zod28.z.string(),
+  affectedScenarios: import_zod28.z.array(import_zod28.z.string()),
+  recommendation: import_zod28.z.string().optional()
+});
+var RunAnalysisSchema = import_zod28.z.object({
+  generatedAt: import_zod28.z.string(),
   summary: import_zod28.z.string(),
-  details: import_zod28.z.string(),
-  rootCause: import_zod28.z.string(),
-  suggestedFix: import_zod28.z.string(),
-  relatedAssertions: import_zod28.z.array(import_zod28.z.string()),
-  codeSnippet: import_zod28.z.string().optional(),
-  similarIssues: import_zod28.z.array(import_zod28.z.string()).optional(),
-  patternId: import_zod28.z.string().optional(),
-  // Extended fields for detailed debugging
-  diff: DiffContentSchema.optional(),
-  executionTrace: ExecutionTraceSchema.optional()
+  findings: import_zod28.z.array(RunAnalysisFindingSchema)
 });
 var EvalRunSchema = TenantEntitySchema.extend({
   /** Agent ID for this run */
@@ -1341,8 +1327,6 @@ var EvalRunSchema = TenantEntitySchema.extend({
   results: import_zod28.z.array(import_zod28.z.lazy(() => EvalRunResultSchema)),
   /** Aggregated metrics across all results */
   aggregateMetrics: EvalMetricsSchema,
-  /** Failure analyses */
-  failureAnalyses: import_zod28.z.array(FailureAnalysisSchema).optional(),
   /** Aggregated LLM trace summary */
   llmTraceSummary: LLMTraceSummarySchema.optional(),
   /** What triggered this run */
@@ -1378,7 +1362,13 @@ var EvalRunSchema = TenantEntitySchema.extend({
     runCommand: AgentRunCommandSchema.optional(),
     systemPrompt: import_zod28.z.string().nullable().optional(),
     modelConfig: ModelConfigSchema.optional()
-  }).optional()
+  }).optional(),
+  /** UUID linking all runs in a comparison group */
+  comparisonGroupId: import_zod28.z.string().optional(),
+  /** Human-readable label for this variant (e.g., "MCP: Wix Stores") */
+  comparisonLabel: import_zod28.z.string().optional(),
+  /** LLM-generated analysis of the completed run */
+  runAnalysis: RunAnalysisSchema.optional()
 });
 var CreateEvalRunInputSchema = EvalRunSchema.omit({
   id: true,
@@ -2015,9 +2005,6 @@ function getSystemAssertion(id) {
   EvaluationResultSchema,
   ExecutionTraceSchema,
   ExpectedFileSchema,
-  FailureAnalysisSchema,
-  FailureCategory,
-  FailureSeverity,
   FileContentCheckSchema,
   FileContentTestSchema,
   FileModificationSchema,
@@ -2054,6 +2041,8 @@ function getSystemAssertion(id) {
   RUN_COMMAND_LABELS,
   RuleSchema,
   RuleTypeSchema,
+  RunAnalysisFindingSchema,
+  RunAnalysisSchema,
   SEMVER_REGEX,
   SKILL_FOLDER_NAME_REGEX,
   SYSTEM_ASSERTIONS,