npm - @intentsolutions/jrig-cli - Versions diffs - 0.1.0 → 0.1.1 - Mend

@intentsolutions/jrig-cli 0.1.0 → 0.1.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (2) hide show

package/dist/index.js +39 -2
package/package.json +2 -2

package/dist/index.js CHANGED Viewed

@@ -82,6 +82,9 @@ var CriterionSchema = z.object({
   deterministic_check_params: z.record(z.string(), z.unknown()).optional().describe(
     "Parameters forwarded to the deterministic check (e.g. { value: 'needle' } for 'contains', { pattern: '\\\\d+' } for 'regex_match')"
   )
+}).refine((c) => c.method !== "deterministic" || !!c.deterministic_check, {
+  message: "deterministic criteria must define deterministic_check",
+  path: ["deterministic_check"]
 });
 var TestCaseTier = z2.enum(["core", "edge", "regression", "adversarial"]);
 var TriggerExpectation = z2.enum(["should_trigger", "should_not_trigger"]);
@@ -115,6 +118,19 @@ var EvalSpecSchema = z3.object({
   models: z3.array(ModelTarget).default(["sonnet"]).describe("Models to test independently"),
   siblings: z3.array(SiblingSkillSchema).optional().describe("Sibling skills for pack-sensitive evaluation"),
   tags: z3.array(z3.string()).optional().describe("Categorization tags")
+}).superRefine((spec, ctx) => {
+  const knownCriteria = new Set(spec.criteria.map((c) => c.id));
+  spec.test_cases.forEach((tc, ti) => {
+    tc.criteria_ids?.forEach((cid, ci) => {
+      if (!knownCriteria.has(cid)) {
+        ctx.addIssue({
+          code: z3.ZodIssueCode.custom,
+          message: `test case "${tc.id}" references unknown criterion id "${cid}"`,
+          path: ["test_cases", ti, "criteria_ids", ci]
+        });
+      }
+    });
+  });
 });
 var EvalContractSchema = z4.object({
   contract_version: z4.literal("1.0").describe("Schema version for forward compatibility"),
@@ -1009,6 +1025,16 @@ async function judgeWithLLM(criterion, outcome, provider, model) {
     };
   }
 }
+function selectCriteriaForTestCase(criteria, criteriaIds) {
+  if (criteriaIds === void 0) return criteria;
+  const available = new Set(criteria.map((c) => c.id));
+  const unknown = criteriaIds.filter((id) => !available.has(id));
+  if (unknown.length > 0) {
+    throw new Error(`Test case references unknown criteria_ids: ${unknown.join(", ")}`);
+  }
+  const wanted = new Set(criteriaIds);
+  return criteria.filter((c) => wanted.has(c.id));
+}
 function computeScoreCard(results, criteria, regressions = []) {
   const criteriaMap = new Map(criteria.map((c) => [c.id, c]));
   let passed = 0, failed = 0, unsure = 0, blockerFailures = 0;
@@ -3019,9 +3045,20 @@ function registerEvalCommand(program) {
               `  Functional: ${outcomes.length}/${spec.test_cases.length} test case(s) executed`
             );
           }
+          const testCaseById = new Map(spec.test_cases.map((tc) => [tc.id, tc]));
           const allJudgments = [];
           for (const outcome of outcomes) {
-            const judgments = await judgeCriteria(spec.criteria, outcome, providers.judge, {
+            const testCase = testCaseById.get(outcome.test_case_id);
+            if (!testCase) {
+              throw new Error(
+                `Outcome references unknown test case id: "${outcome.test_case_id}"`
+              );
+            }
+            const applicableCriteria = selectCriteriaForTestCase(
+              spec.criteria,
+              testCase.criteria_ids
+            );
+            const judgments = await judgeCriteria(applicableCriteria, outcome, providers.judge, {
               model
             });
             for (const j of judgments) {
@@ -4207,7 +4244,7 @@ function registerSkillSignalCommands(program) {
 import { registerRefineCommand } from "@intentsolutions/refiner";
 function createProgram() {
   const program = new Command();
-  program.name("j-rig").description("Seven-layer binary evaluation harness for Claude Skills").version("0.1.0");
+  program.name("j-rig").description("Seven-layer binary evaluation harness for Claude Skills").version("0.1.1");
   registerCheckCommand(program);
   registerValidateCommand(program);
   registerEvalCommand(program);

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@intentsolutions/jrig-cli",
-  "version": "0.1.0",
+  "version": "0.1.1",
   "private": false,
   "description": "J-Rig seven-layer binary eval CLI for Claude Skills — the `j-rig` command: package integrity, trigger/functional/regression/baseline scoring, optimizer, and rollout-gate evidence. Self-contained (bundles the internal eval engine).",
   "keywords": [
@@ -61,8 +61,8 @@
     "zod": "^4.4.3"
   },
   "devDependencies": {
-    "@j-rig/core": "2.1.0",
     "@j-rig/db": "2.1.0",
+    "@j-rig/core": "2.1.0",
     "@j-rig/migrate": "2.1.0"
   },
   "scripts": {