npm - @mcptoolshop/research-os - Versions diffs - 0.4.0 → 0.5.0 - Mend

@mcptoolshop/research-os 0.4.0 → 0.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (27) hide show

package/CHANGELOG.md +134 -0
package/README.es.md +25 -2
package/README.fr.md +24 -1
package/README.hi.md +39 -1
package/README.it.md +25 -2
package/README.ja.md +24 -1
package/README.md +37 -1
package/README.pt-BR.md +24 -1
package/README.zh.md +25 -2
package/dist/calibration/aggregate-receipt-schema.d.ts +509 -0
package/dist/calibration/aggregate-receipt-schema.js +143 -0
package/dist/calibration/aggregate-receipt-schema.js.map +1 -0
package/dist/calibration/aggregate.d.ts +35 -0
package/dist/calibration/aggregate.js +454 -0
package/dist/calibration/aggregate.js.map +1 -0
package/dist/calibration/receipt-schema.d.ts +317 -0
package/dist/calibration/receipt-schema.js +68 -0
package/dist/calibration/receipt-schema.js.map +1 -0
package/dist/calibration/receipt.d.ts +31 -0
package/dist/calibration/receipt.js +151 -0
package/dist/calibration/receipt.js.map +1 -0
package/dist/cli.js +136 -9
package/dist/cli.js.map +1 -1
package/dist/index.d.ts +10 -1
package/dist/index.js +13 -6
package/dist/index.js.map +1 -1
package/package.json +1 -1

package/dist/calibration/aggregate-receipt-schema.d.ts ADDED Viewed

@@ -0,0 +1,509 @@
+import { z } from 'zod';
+declare const AggregateMetricSchema: z.ZodObject<{
+    median: z.ZodNumber;
+    min: z.ZodNumber;
+    max: z.ZodNumber;
+    values: z.ZodArray<z.ZodNumber, "many">;
+}, "strip", z.ZodTypeAny, {
+    median: number;
+    min: number;
+    max: number;
+    values: number[];
+}, {
+    median: number;
+    min: number;
+    max: number;
+    values: number[];
+}>;
+declare const PerCategoryAggregateEntrySchema: z.ZodObject<{
+    median_ratio: z.ZodNumber;
+    min_ratio: z.ZodNumber;
+    max_ratio: z.ZodNumber;
+    total: z.ZodNumber;
+    per_run_ratios: z.ZodArray<z.ZodNumber, "many">;
+}, "strip", z.ZodTypeAny, {
+    median_ratio: number;
+    min_ratio: number;
+    max_ratio: number;
+    total: number;
+    per_run_ratios: number[];
+}, {
+    median_ratio: number;
+    min_ratio: number;
+    max_ratio: number;
+    total: number;
+    per_run_ratios: number[];
+}>;
+declare const PerCategoryAggregateSchema: z.ZodRecord<z.ZodString, z.ZodObject<{
+    median_ratio: z.ZodNumber;
+    min_ratio: z.ZodNumber;
+    max_ratio: z.ZodNumber;
+    total: z.ZodNumber;
+    per_run_ratios: z.ZodArray<z.ZodNumber, "many">;
+}, "strip", z.ZodTypeAny, {
+    median_ratio: number;
+    min_ratio: number;
+    max_ratio: number;
+    total: number;
+    per_run_ratios: number[];
+}, {
+    median_ratio: number;
+    min_ratio: number;
+    max_ratio: number;
+    total: number;
+    per_run_ratios: number[];
+}>>;
+declare const AggregatePassFailSchema: z.ZodObject<{
+    fp_ceiling: z.ZodEnum<["PASS", "FAIL"]>;
+    any_flag_recall_floor: z.ZodEnum<["PASS", "FAIL"]>;
+    per_category_any_flag_floor: z.ZodEnum<["PASS", "FAIL"]>;
+    strict_recall_floor: z.ZodEnum<["PASS", "FAIL"]>;
+    decision_vocab_completeness: z.ZodEnum<["PASS", "FAIL"]>;
+    latency_soft: z.ZodEnum<["PASS", "WARN"]>;
+    latency_hard: z.ZodEnum<["PASS", "FAIL"]>;
+    empty_or_malformed: z.ZodEnum<["PASS", "FAIL"]>;
+    overall: z.ZodEnum<["PASS", "FAIL"]>;
+}, "strip", z.ZodTypeAny, {
+    fp_ceiling: "PASS" | "FAIL";
+    any_flag_recall_floor: "PASS" | "FAIL";
+    per_category_any_flag_floor: "PASS" | "FAIL";
+    strict_recall_floor: "PASS" | "FAIL";
+    decision_vocab_completeness: "PASS" | "FAIL";
+    latency_soft: "PASS" | "WARN";
+    latency_hard: "PASS" | "FAIL";
+    empty_or_malformed: "PASS" | "FAIL";
+    overall: "PASS" | "FAIL";
+}, {
+    fp_ceiling: "PASS" | "FAIL";
+    any_flag_recall_floor: "PASS" | "FAIL";
+    per_category_any_flag_floor: "PASS" | "FAIL";
+    strict_recall_floor: "PASS" | "FAIL";
+    decision_vocab_completeness: "PASS" | "FAIL";
+    latency_soft: "PASS" | "WARN";
+    latency_hard: "PASS" | "FAIL";
+    empty_or_malformed: "PASS" | "FAIL";
+    overall: "PASS" | "FAIL";
+}>;
+declare const AggregateDecisionVocabBarSchema: z.ZodObject<{
+    architecture: z.ZodEnum<["single-pass", "two-pass"]>;
+    required: z.ZodNumber;
+    median_produced: z.ZodNumber;
+    passed: z.ZodBoolean;
+}, "strip", z.ZodTypeAny, {
+    required: number;
+    architecture: "single-pass" | "two-pass";
+    median_produced: number;
+    passed: boolean;
+}, {
+    required: number;
+    architecture: "single-pass" | "two-pass";
+    median_produced: number;
+    passed: boolean;
+}>;
+declare const AggregateCalibrationReceiptSchema: z.ZodObject<{
+    schema_version: z.ZodLiteral<1>;
+    receipt_kind: z.ZodLiteral<"aggregate">;
+    profile_name: z.ZodString;
+    status: z.ZodEnum<["trusted_baseline", "conditional_pass", "failed", "comparison_only"]>;
+    model: z.ZodString;
+    architecture: z.ZodEnum<["single-pass", "two-pass"]>;
+    fixture: z.ZodString;
+    fixture_total_claims: z.ZodNumber;
+    fixture_good_claims: z.ZodNumber;
+    fixture_bad_claims: z.ZodNumber;
+    runs_count: z.ZodNumber;
+    run_files: z.ZodArray<z.ZodString, "many">;
+    aggregated_at: z.ZodString;
+    research_os_version: z.ZodString;
+    good_fp_count: z.ZodObject<{
+        median: z.ZodNumber;
+        min: z.ZodNumber;
+        max: z.ZodNumber;
+        values: z.ZodArray<z.ZodNumber, "many">;
+    }, "strip", z.ZodTypeAny, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }>;
+    any_flag_recall_ratio: z.ZodObject<{
+        median: z.ZodNumber;
+        min: z.ZodNumber;
+        max: z.ZodNumber;
+        values: z.ZodArray<z.ZodNumber, "many">;
+    }, "strip", z.ZodTypeAny, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }>;
+    strict_recall_ratio: z.ZodObject<{
+        median: z.ZodNumber;
+        min: z.ZodNumber;
+        max: z.ZodNumber;
+        values: z.ZodArray<z.ZodNumber, "many">;
+    }, "strip", z.ZodTypeAny, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }>;
+    decisions_produced_count: z.ZodObject<{
+        median: z.ZodNumber;
+        min: z.ZodNumber;
+        max: z.ZodNumber;
+        values: z.ZodArray<z.ZodNumber, "many">;
+    }, "strip", z.ZodTypeAny, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }>;
+    runtime_ms: z.ZodObject<{
+        median: z.ZodNumber;
+        min: z.ZodNumber;
+        max: z.ZodNumber;
+        values: z.ZodArray<z.ZodNumber, "many">;
+    }, "strip", z.ZodTypeAny, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }>;
+    empty_or_malformed_responses: z.ZodObject<{
+        median: z.ZodNumber;
+        min: z.ZodNumber;
+        max: z.ZodNumber;
+        values: z.ZodArray<z.ZodNumber, "many">;
+    }, "strip", z.ZodTypeAny, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }>;
+    per_category_any_flag: z.ZodRecord<z.ZodString, z.ZodObject<{
+        median_ratio: z.ZodNumber;
+        min_ratio: z.ZodNumber;
+        max_ratio: z.ZodNumber;
+        total: z.ZodNumber;
+        per_run_ratios: z.ZodArray<z.ZodNumber, "many">;
+    }, "strip", z.ZodTypeAny, {
+        median_ratio: number;
+        min_ratio: number;
+        max_ratio: number;
+        total: number;
+        per_run_ratios: number[];
+    }, {
+        median_ratio: number;
+        min_ratio: number;
+        max_ratio: number;
+        total: number;
+        per_run_ratios: number[];
+    }>>;
+    per_category_strict: z.ZodRecord<z.ZodString, z.ZodObject<{
+        median_ratio: z.ZodNumber;
+        min_ratio: z.ZodNumber;
+        max_ratio: z.ZodNumber;
+        total: z.ZodNumber;
+        per_run_ratios: z.ZodArray<z.ZodNumber, "many">;
+    }, "strip", z.ZodTypeAny, {
+        median_ratio: number;
+        min_ratio: number;
+        max_ratio: number;
+        total: number;
+        per_run_ratios: number[];
+    }, {
+        median_ratio: number;
+        min_ratio: number;
+        max_ratio: number;
+        total: number;
+        per_run_ratios: number[];
+    }>>;
+    decision_vocabulary: z.ZodRecord<z.ZodString, z.ZodObject<{
+        median: z.ZodNumber;
+        min: z.ZodNumber;
+        max: z.ZodNumber;
+        values: z.ZodArray<z.ZodNumber, "many">;
+    }, "strip", z.ZodTypeAny, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }>>;
+    decision_vocab_bar: z.ZodObject<{
+        architecture: z.ZodEnum<["single-pass", "two-pass"]>;
+        required: z.ZodNumber;
+        median_produced: z.ZodNumber;
+        passed: z.ZodBoolean;
+    }, "strip", z.ZodTypeAny, {
+        required: number;
+        architecture: "single-pass" | "two-pass";
+        median_produced: number;
+        passed: boolean;
+    }, {
+        required: number;
+        architecture: "single-pass" | "two-pass";
+        median_produced: number;
+        passed: boolean;
+    }>;
+    unreachable_decisions: z.ZodArray<z.ZodString, "many">;
+    pass_fail: z.ZodObject<{
+        fp_ceiling: z.ZodEnum<["PASS", "FAIL"]>;
+        any_flag_recall_floor: z.ZodEnum<["PASS", "FAIL"]>;
+        per_category_any_flag_floor: z.ZodEnum<["PASS", "FAIL"]>;
+        strict_recall_floor: z.ZodEnum<["PASS", "FAIL"]>;
+        decision_vocab_completeness: z.ZodEnum<["PASS", "FAIL"]>;
+        latency_soft: z.ZodEnum<["PASS", "WARN"]>;
+        latency_hard: z.ZodEnum<["PASS", "FAIL"]>;
+        empty_or_malformed: z.ZodEnum<["PASS", "FAIL"]>;
+        overall: z.ZodEnum<["PASS", "FAIL"]>;
+    }, "strip", z.ZodTypeAny, {
+        fp_ceiling: "PASS" | "FAIL";
+        any_flag_recall_floor: "PASS" | "FAIL";
+        per_category_any_flag_floor: "PASS" | "FAIL";
+        strict_recall_floor: "PASS" | "FAIL";
+        decision_vocab_completeness: "PASS" | "FAIL";
+        latency_soft: "PASS" | "WARN";
+        latency_hard: "PASS" | "FAIL";
+        empty_or_malformed: "PASS" | "FAIL";
+        overall: "PASS" | "FAIL";
+    }, {
+        fp_ceiling: "PASS" | "FAIL";
+        any_flag_recall_floor: "PASS" | "FAIL";
+        per_category_any_flag_floor: "PASS" | "FAIL";
+        strict_recall_floor: "PASS" | "FAIL";
+        decision_vocab_completeness: "PASS" | "FAIL";
+        latency_soft: "PASS" | "WARN";
+        latency_hard: "PASS" | "FAIL";
+        empty_or_malformed: "PASS" | "FAIL";
+        overall: "PASS" | "FAIL";
+    }>;
+    recurring_bar_failures: z.ZodArray<z.ZodString, "many">;
+    notes: z.ZodArray<z.ZodString, "many">;
+}, "strip", z.ZodTypeAny, {
+    status: "trusted_baseline" | "conditional_pass" | "failed" | "comparison_only";
+    architecture: "single-pass" | "two-pass";
+    schema_version: 1;
+    receipt_kind: "aggregate";
+    profile_name: string;
+    model: string;
+    fixture: string;
+    fixture_total_claims: number;
+    fixture_good_claims: number;
+    fixture_bad_claims: number;
+    runs_count: number;
+    run_files: string[];
+    aggregated_at: string;
+    research_os_version: string;
+    good_fp_count: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    any_flag_recall_ratio: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    strict_recall_ratio: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    decisions_produced_count: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    runtime_ms: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    empty_or_malformed_responses: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    per_category_any_flag: Record<string, {
+        median_ratio: number;
+        min_ratio: number;
+        max_ratio: number;
+        total: number;
+        per_run_ratios: number[];
+    }>;
+    per_category_strict: Record<string, {
+        median_ratio: number;
+        min_ratio: number;
+        max_ratio: number;
+        total: number;
+        per_run_ratios: number[];
+    }>;
+    decision_vocabulary: Record<string, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }>;
+    decision_vocab_bar: {
+        required: number;
+        architecture: "single-pass" | "two-pass";
+        median_produced: number;
+        passed: boolean;
+    };
+    unreachable_decisions: string[];
+    pass_fail: {
+        fp_ceiling: "PASS" | "FAIL";
+        any_flag_recall_floor: "PASS" | "FAIL";
+        per_category_any_flag_floor: "PASS" | "FAIL";
+        strict_recall_floor: "PASS" | "FAIL";
+        decision_vocab_completeness: "PASS" | "FAIL";
+        latency_soft: "PASS" | "WARN";
+        latency_hard: "PASS" | "FAIL";
+        empty_or_malformed: "PASS" | "FAIL";
+        overall: "PASS" | "FAIL";
+    };
+    recurring_bar_failures: string[];
+    notes: string[];
+}, {
+    status: "trusted_baseline" | "conditional_pass" | "failed" | "comparison_only";
+    architecture: "single-pass" | "two-pass";
+    schema_version: 1;
+    receipt_kind: "aggregate";
+    profile_name: string;
+    model: string;
+    fixture: string;
+    fixture_total_claims: number;
+    fixture_good_claims: number;
+    fixture_bad_claims: number;
+    runs_count: number;
+    run_files: string[];
+    aggregated_at: string;
+    research_os_version: string;
+    good_fp_count: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    any_flag_recall_ratio: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    strict_recall_ratio: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    decisions_produced_count: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    runtime_ms: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    empty_or_malformed_responses: {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    };
+    per_category_any_flag: Record<string, {
+        median_ratio: number;
+        min_ratio: number;
+        max_ratio: number;
+        total: number;
+        per_run_ratios: number[];
+    }>;
+    per_category_strict: Record<string, {
+        median_ratio: number;
+        min_ratio: number;
+        max_ratio: number;
+        total: number;
+        per_run_ratios: number[];
+    }>;
+    decision_vocabulary: Record<string, {
+        median: number;
+        min: number;
+        max: number;
+        values: number[];
+    }>;
+    decision_vocab_bar: {
+        required: number;
+        architecture: "single-pass" | "two-pass";
+        median_produced: number;
+        passed: boolean;
+    };
+    unreachable_decisions: string[];
+    pass_fail: {
+        fp_ceiling: "PASS" | "FAIL";
+        any_flag_recall_floor: "PASS" | "FAIL";
+        per_category_any_flag_floor: "PASS" | "FAIL";
+        strict_recall_floor: "PASS" | "FAIL";
+        decision_vocab_completeness: "PASS" | "FAIL";
+        latency_soft: "PASS" | "WARN";
+        latency_hard: "PASS" | "FAIL";
+        empty_or_malformed: "PASS" | "FAIL";
+        overall: "PASS" | "FAIL";
+    };
+    recurring_bar_failures: string[];
+    notes: string[];
+}>;
+type AggregateMetric = z.infer<typeof AggregateMetricSchema>;
+type PerCategoryAggregateEntry = z.infer<typeof PerCategoryAggregateEntrySchema>;
+type PerCategoryAggregate = z.infer<typeof PerCategoryAggregateSchema>;
+type AggregatePassFail = z.infer<typeof AggregatePassFailSchema>;
+type AggregateDecisionVocabBar = z.infer<typeof AggregateDecisionVocabBarSchema>;
+type AggregateCalibrationReceipt = z.infer<typeof AggregateCalibrationReceiptSchema>;
+export { type AggregateCalibrationReceipt, AggregateCalibrationReceiptSchema, type AggregateDecisionVocabBar, AggregateDecisionVocabBarSchema, type AggregateMetric, AggregateMetricSchema, type AggregatePassFail, AggregatePassFailSchema, type PerCategoryAggregate, type PerCategoryAggregateEntry, PerCategoryAggregateEntrySchema, PerCategoryAggregateSchema };

package/dist/calibration/aggregate-receipt-schema.js ADDED Viewed

@@ -0,0 +1,143 @@
+// src/calibration/aggregate-receipt-schema.ts
+import { z as z2 } from "zod";
+// src/calibration/receipt-schema.ts
+import { z } from "zod";
+var StatusLabelSchema = z.enum([
+  "trusted_baseline",
+  "conditional_pass",
+  "failed",
+  "comparison_only"
+]);
+var ArchitectureSchema = z.enum(["single-pass", "two-pass"]);
+var RecallSchema = z.object({
+  matched: z.number().int().nonnegative(),
+  total: z.number().int().nonnegative(),
+  ratio: z.number().min(0).max(1)
+});
+var PerCategoryRecallSchema = z.record(z.string(), RecallSchema);
+var PassFailSchema = z.object({
+  fp_ceiling: z.enum(["PASS", "FAIL"]),
+  any_flag_recall_floor: z.enum(["PASS", "FAIL"]),
+  per_category_any_flag_floor: z.enum(["PASS", "FAIL"]),
+  strict_recall_floor: z.enum(["PASS", "FAIL"]),
+  decision_vocab_completeness: z.enum(["PASS", "FAIL"]),
+  latency_soft: z.enum(["PASS", "WARN"]),
+  latency_hard: z.enum(["PASS", "FAIL"]),
+  empty_or_malformed: z.enum(["PASS", "FAIL"]),
+  overall: z.enum(["PASS", "FAIL"])
+});
+var DecisionVocabBarSchema = z.object({
+  architecture: ArchitectureSchema,
+  required: z.number().int().positive(),
+  produced: z.number().int().nonnegative(),
+  passed: z.boolean()
+});
+var CalibrationReceiptSchema = z.object({
+  schema_version: z.literal(1),
+  profile_name: z.string(),
+  status: StatusLabelSchema,
+  model: z.string(),
+  architecture: ArchitectureSchema,
+  fixture: z.string(),
+  fixture_total_claims: z.number().int().positive(),
+  fixture_good_claims: z.number().int().nonnegative(),
+  fixture_bad_claims: z.number().int().nonnegative(),
+  calibrated_at: z.string(),
+  research_os_version: z.string(),
+  runtime_ms: z.number().int().nonnegative(),
+  good_fp_count: z.number().int().nonnegative(),
+  any_flag_recall: RecallSchema,
+  strict_recall: RecallSchema,
+  per_category_any_flag: PerCategoryRecallSchema,
+  per_category_strict: PerCategoryRecallSchema,
+  decision_vocabulary: z.record(z.string(), z.number().int().nonnegative()),
+  decisions_produced_count: z.number().int().nonnegative(),
+  decision_vocab_bar: DecisionVocabBarSchema,
+  unreachable_decisions: z.array(z.string()),
+  empty_or_malformed_responses: z.number().int().nonnegative(),
+  pass_fail: PassFailSchema,
+  notes: z.array(z.string())
+});
+// src/calibration/aggregate-receipt-schema.ts
+var AggregateMetricSchema = z2.object({
+  median: z2.number(),
+  min: z2.number(),
+  max: z2.number(),
+  values: z2.array(z2.number())
+  // per-run values in run order (run-001, run-002, ...)
+});
+var PerCategoryAggregateEntrySchema = z2.object({
+  median_ratio: z2.number().min(0).max(1),
+  min_ratio: z2.number().min(0).max(1),
+  max_ratio: z2.number().min(0).max(1),
+  total: z2.number().int().nonnegative(),
+  // seed count — same across all runs
+  per_run_ratios: z2.array(z2.number())
+});
+var PerCategoryAggregateSchema = z2.record(z2.string(), PerCategoryAggregateEntrySchema);
+var AggregatePassFailSchema = z2.object({
+  fp_ceiling: z2.enum(["PASS", "FAIL"]),
+  any_flag_recall_floor: z2.enum(["PASS", "FAIL"]),
+  per_category_any_flag_floor: z2.enum(["PASS", "FAIL"]),
+  strict_recall_floor: z2.enum(["PASS", "FAIL"]),
+  decision_vocab_completeness: z2.enum(["PASS", "FAIL"]),
+  latency_soft: z2.enum(["PASS", "WARN"]),
+  latency_hard: z2.enum(["PASS", "FAIL"]),
+  empty_or_malformed: z2.enum(["PASS", "FAIL"]),
+  overall: z2.enum(["PASS", "FAIL"])
+});
+var AggregateDecisionVocabBarSchema = z2.object({
+  architecture: ArchitectureSchema,
+  required: z2.number().int().positive(),
+  median_produced: z2.number(),
+  // float — median of per-run decisions_produced_count
+  passed: z2.boolean()
+});
+var AggregateCalibrationReceiptSchema = z2.object({
+  schema_version: z2.literal(1),
+  receipt_kind: z2.literal("aggregate"),
+  // discriminates from single-run receipt
+  profile_name: z2.string(),
+  status: StatusLabelSchema,
+  model: z2.string(),
+  architecture: ArchitectureSchema,
+  fixture: z2.string(),
+  fixture_total_claims: z2.number().int().positive(),
+  fixture_good_claims: z2.number().int().nonnegative(),
+  fixture_bad_claims: z2.number().int().nonnegative(),
+  runs_count: z2.number().int().min(2),
+  run_files: z2.array(z2.string()),
+  // relative paths: runs/run-001.json, etc.
+  aggregated_at: z2.string(),
+  // ISO 8601
+  research_os_version: z2.string(),
+  // Aggregate metrics — median + min + max + per-run values in run order
+  good_fp_count: AggregateMetricSchema,
+  any_flag_recall_ratio: AggregateMetricSchema,
+  strict_recall_ratio: AggregateMetricSchema,
+  decisions_produced_count: AggregateMetricSchema,
+  runtime_ms: AggregateMetricSchema,
+  empty_or_malformed_responses: AggregateMetricSchema,
+  per_category_any_flag: PerCategoryAggregateSchema,
+  per_category_strict: PerCategoryAggregateSchema,
+  // Decision vocabulary — union of all decisions seen across runs, median count each
+  decision_vocabulary: z2.record(z2.string(), AggregateMetricSchema),
+  decision_vocab_bar: AggregateDecisionVocabBarSchema,
+  unreachable_decisions: z2.array(z2.string()),
+  pass_fail: AggregatePassFailSchema,
+  // Bars that FAILed in >= ceil(runs_count/2) individual runs.
+  // Non-empty list demotes trusted_baseline to conditional_pass.
+  recurring_bar_failures: z2.array(z2.string()),
+  notes: z2.array(z2.string())
+});
+export {
+  AggregateCalibrationReceiptSchema,
+  AggregateDecisionVocabBarSchema,
+  AggregateMetricSchema,
+  AggregatePassFailSchema,
+  PerCategoryAggregateEntrySchema,
+  PerCategoryAggregateSchema
+};
+//# sourceMappingURL=aggregate-receipt-schema.js.map

package/dist/calibration/aggregate-receipt-schema.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"sources":["../../src/calibration/aggregate-receipt-schema.ts","../../src/calibration/receipt-schema.ts"],"sourcesContent":["import { z } from 'zod';\nimport { StatusLabelSchema, ArchitectureSchema } from './receipt-schema.js';\n\nexport const AggregateMetricSchema = z.object({\n median: z.number(),\n min: z.number(),\n max: z.number(),\n values: z.array(z.number()), // per-run values in run order (run-001, run-002, ...)\n});\n\nexport const PerCategoryAggregateEntrySchema = z.object({\n median_ratio: z.number().min(0).max(1),\n min_ratio: z.number().min(0).max(1),\n max_ratio: z.number().min(0).max(1),\n total: z.number().int().nonnegative(), // seed count — same across all runs\n per_run_ratios: z.array(z.number()),\n});\n\nexport const PerCategoryAggregateSchema = z.record(z.string(), PerCategoryAggregateEntrySchema);\n\nexport const AggregatePassFailSchema = z.object({\n fp_ceiling: z.enum(['PASS', 'FAIL']),\n any_flag_recall_floor: z.enum(['PASS', 'FAIL']),\n per_category_any_flag_floor: z.enum(['PASS', 'FAIL']),\n strict_recall_floor: z.enum(['PASS', 'FAIL']),\n decision_vocab_completeness: z.enum(['PASS', 'FAIL']),\n latency_soft: z.enum(['PASS', 'WARN']),\n latency_hard: z.enum(['PASS', 'FAIL']),\n empty_or_malformed: z.enum(['PASS', 'FAIL']),\n overall: z.enum(['PASS', 'FAIL']),\n});\n\nexport const AggregateDecisionVocabBarSchema = z.object({\n architecture: ArchitectureSchema,\n required: z.number().int().positive(),\n median_produced: z.number(), // float — median of per-run decisions_produced_count\n passed: z.boolean(),\n});\n\nexport const AggregateCalibrationReceiptSchema = z.object({\n schema_version: z.literal(1),\n receipt_kind: z.literal('aggregate'), // discriminates from single-run receipt\n profile_name: z.string(),\n status: StatusLabelSchema,\n model: z.string(),\n architecture: ArchitectureSchema,\n fixture: z.string(),\n fixture_total_claims: z.number().int().positive(),\n fixture_good_claims: z.number().int().nonnegative(),\n fixture_bad_claims: z.number().int().nonnegative(),\n runs_count: z.number().int().min(2),\n run_files: z.array(z.string()), // relative paths: runs/run-001.json, etc.\n aggregated_at: z.string(), // ISO 8601\n research_os_version: z.string(),\n\n // Aggregate metrics — median + min + max + per-run values in run order\n good_fp_count: AggregateMetricSchema,\n any_flag_recall_ratio: AggregateMetricSchema,\n strict_recall_ratio: AggregateMetricSchema,\n decisions_produced_count: AggregateMetricSchema,\n runtime_ms: AggregateMetricSchema,\n empty_or_malformed_responses: AggregateMetricSchema,\n\n per_category_any_flag: PerCategoryAggregateSchema,\n per_category_strict: PerCategoryAggregateSchema,\n\n // Decision vocabulary — union of all decisions seen across runs, median count each\n decision_vocabulary: z.record(z.string(), AggregateMetricSchema),\n decision_vocab_bar: AggregateDecisionVocabBarSchema,\n unreachable_decisions: z.array(z.string()),\n\n pass_fail: AggregatePassFailSchema,\n // Bars that FAILed in >= ceil(runs_count/2) individual runs.\n // Non-empty list demotes trusted_baseline to conditional_pass.\n recurring_bar_failures: z.array(z.string()),\n\n notes: z.array(z.string()),\n});\n\nexport type AggregateMetric = z.infer<typeof AggregateMetricSchema>;\nexport type PerCategoryAggregateEntry = z.infer<typeof PerCategoryAggregateEntrySchema>;\nexport type PerCategoryAggregate = z.infer<typeof PerCategoryAggregateSchema>;\nexport type AggregatePassFail = z.infer<typeof AggregatePassFailSchema>;\nexport type AggregateDecisionVocabBar = z.infer<typeof AggregateDecisionVocabBarSchema>;\nexport type AggregateCalibrationReceipt = z.infer<typeof AggregateCalibrationReceiptSchema>;\n","import { z } from 'zod';\n\nexport const StatusLabelSchema = z.enum([\n 'trusted_baseline',\n 'conditional_pass',\n 'failed',\n 'comparison_only',\n]);\n\nexport const ArchitectureSchema = z.enum(['single-pass', 'two-pass']);\n\nexport const RecallSchema = z.object({\n matched: z.number().int().nonnegative(),\n total: z.number().int().nonnegative(),\n ratio: z.number().min(0).max(1),\n});\n\nexport const PerCategoryRecallSchema = z.record(z.string(), RecallSchema);\n\nexport const PassFailSchema = z.object({\n fp_ceiling: z.enum(['PASS', 'FAIL']),\n any_flag_recall_floor: z.enum(['PASS', 'FAIL']),\n per_category_any_flag_floor: z.enum(['PASS', 'FAIL']),\n strict_recall_floor: z.enum(['PASS', 'FAIL']),\n decision_vocab_completeness: z.enum(['PASS', 'FAIL']),\n latency_soft: z.enum(['PASS', 'WARN']),\n latency_hard: z.enum(['PASS', 'FAIL']),\n empty_or_malformed: z.enum(['PASS', 'FAIL']),\n overall: z.enum(['PASS', 'FAIL']),\n});\n\nexport const DecisionVocabBarSchema = z.object({\n architecture: ArchitectureSchema,\n required: z.number().int().positive(),\n produced: z.number().int().nonnegative(),\n passed: z.boolean(),\n});\n\nexport const CalibrationReceiptSchema = z.object({\n schema_version: z.literal(1),\n profile_name: z.string(),\n status: StatusLabelSchema,\n model: z.string(),\n architecture: ArchitectureSchema,\n fixture: z.string(),\n fixture_total_claims: z.number().int().positive(),\n fixture_good_claims: z.number().int().nonnegative(),\n fixture_bad_claims: z.number().int().nonnegative(),\n calibrated_at: z.string(),\n research_os_version: z.string(),\n runtime_ms: z.number().int().nonnegative(),\n good_fp_count: z.number().int().nonnegative(),\n any_flag_recall: RecallSchema,\n strict_recall: RecallSchema,\n per_category_any_flag: PerCategoryRecallSchema,\n per_category_strict: PerCategoryRecallSchema,\n decision_vocabulary: z.record(z.string(), z.number().int().nonnegative()),\n decisions_produced_count: z.number().int().nonnegative(),\n decision_vocab_bar: DecisionVocabBarSchema,\n unreachable_decisions: z.array(z.string()),\n empty_or_malformed_responses: z.number().int().nonnegative(),\n pass_fail: PassFailSchema,\n notes: z.array(z.string()),\n});\n\nexport type StatusLabel = z.infer<typeof StatusLabelSchema>;\nexport type Architecture = z.infer<typeof ArchitectureSchema>;\nexport type Recall = z.infer<typeof RecallSchema>;\nexport type PerCategoryRecall = z.infer<typeof PerCategoryRecallSchema>;\nexport type PassFail = z.infer<typeof PassFailSchema>;\nexport type DecisionVocabBar = z.infer<typeof DecisionVocabBarSchema>;\nexport type CalibrationReceipt = z.infer<typeof CalibrationReceiptSchema>;\n"],"mappings":";AAAA,SAAS,KAAAA,UAAS;;;ACAlB,SAAS,SAAS;AAEX,IAAM,oBAAoB,EAAE,KAAK;AAAA,EACtC;AAAA,EACA;AAAA,EACA;AAAA,EACA;AACF,CAAC;AAEM,IAAM,qBAAqB,EAAE,KAAK,CAAC,eAAe,UAAU,CAAC;AAE7D,IAAM,eAAe,EAAE,OAAO;AAAA,EACnC,SAAS,EAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA,EACtC,OAAO,EAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA,EACpC,OAAO,EAAE,OAAO,EAAE,IAAI,CAAC,EAAE,IAAI,CAAC;AAChC,CAAC;AAEM,IAAM,0BAA0B,EAAE,OAAO,EAAE,OAAO,GAAG,YAAY;AAEjE,IAAM,iBAAiB,EAAE,OAAO;AAAA,EACrC,YAAY,EAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EACnC,uBAAuB,EAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EAC9C,6BAA6B,EAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EACpD,qBAAqB,EAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EAC5C,6BAA6B,EAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EACpD,cAAc,EAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EACrC,cAAc,EAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EACrC,oBAAoB,EAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EAC3C,SAAS,EAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAClC,CAAC;AAEM,IAAM,yBAAyB,EAAE,OAAO;AAAA,EAC7C,cAAc;AAAA,EACd,UAAU,EAAE,OAAO,EAAE,IAAI,EAAE,SAAS;AAAA,EACpC,UAAU,EAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA,EACvC,QAAQ,EAAE,QAAQ;AACpB,CAAC;AAEM,IAAM,2BAA2B,EAAE,OAAO;AAAA,EAC/C,gBAAgB,EAAE,QAAQ,CAAC;AAAA,EAC3B,cAAc,EAAE,OAAO;AAAA,EACvB,QAAQ;AAAA,EACR,OAAO,EAAE,OAAO;AAAA,EAChB,cAAc;AAAA,EACd,SAAS,EAAE,OAAO;AAAA,EAClB,sBAAsB,EAAE,OAAO,EAAE,IAAI,EAAE,SAAS;AAAA,EAChD,qBAAqB,EAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA,EAClD,oBAAoB,EAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA,EACjD,eAAe,EAAE,OAAO;AAAA,EACxB,qBAAqB,EAAE,OAAO;AAAA,EAC9B,YAAY,EAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA,EACzC,eAAe,EAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA,EAC5C,iBAAiB;AAAA,EACjB,eAAe;AAAA,EACf,uBAAuB;AAAA,EACvB,qBAAqB;AAAA,EACrB,qBAAqB,EAAE,OAAO,EAAE,OAAO,GAAG,EAAE,OAAO,EAAE,IAAI,EAAE,YAAY,CAAC;AAAA,EACxE,0BAA0B,EAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA,EACvD,oBAAoB;AAAA,EACpB,uBAAuB,EAAE,MAAM,EAAE,OAAO,CAAC;AAAA,EACzC,8BAA8B,EAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA,EAC3D,WAAW;AAAA,EACX,OAAO,EAAE,MAAM,EAAE,OAAO,CAAC;AAC3B,CAAC;;;AD5DM,IAAM,wBAAwBC,GAAE,OAAO;AAAA,EAC5C,QAAQA,GAAE,OAAO;AAAA,EACjB,KAAKA,GAAE,OAAO;AAAA,EACd,KAAKA,GAAE,OAAO;AAAA,EACd,QAAQA,GAAE,MAAMA,GAAE,OAAO,CAAC;AAAA;AAC5B,CAAC;AAEM,IAAM,kCAAkCA,GAAE,OAAO;AAAA,EACtD,cAAcA,GAAE,OAAO,EAAE,IAAI,CAAC,EAAE,IAAI,CAAC;AAAA,EACrC,WAAWA,GAAE,OAAO,EAAE,IAAI,CAAC,EAAE,IAAI,CAAC;AAAA,EAClC,WAAWA,GAAE,OAAO,EAAE,IAAI,CAAC,EAAE,IAAI,CAAC;AAAA,EAClC,OAAOA,GAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA;AAAA,EACpC,gBAAgBA,GAAE,MAAMA,GAAE,OAAO,CAAC;AACpC,CAAC;AAEM,IAAM,6BAA6BA,GAAE,OAAOA,GAAE,OAAO,GAAG,+BAA+B;AAEvF,IAAM,0BAA0BA,GAAE,OAAO;AAAA,EAC9C,YAAYA,GAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EACnC,uBAAuBA,GAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EAC9C,6BAA6BA,GAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EACpD,qBAAqBA,GAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EAC5C,6BAA6BA,GAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EACpD,cAAcA,GAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EACrC,cAAcA,GAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EACrC,oBAAoBA,GAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAAA,EAC3C,SAASA,GAAE,KAAK,CAAC,QAAQ,MAAM,CAAC;AAClC,CAAC;AAEM,IAAM,kCAAkCA,GAAE,OAAO;AAAA,EACtD,cAAc;AAAA,EACd,UAAUA,GAAE,OAAO,EAAE,IAAI,EAAE,SAAS;AAAA,EACpC,iBAAiBA,GAAE,OAAO;AAAA;AAAA,EAC1B,QAAQA,GAAE,QAAQ;AACpB,CAAC;AAEM,IAAM,oCAAoCA,GAAE,OAAO;AAAA,EACxD,gBAAgBA,GAAE,QAAQ,CAAC;AAAA,EAC3B,cAAcA,GAAE,QAAQ,WAAW;AAAA;AAAA,EACnC,cAAcA,GAAE,OAAO;AAAA,EACvB,QAAQ;AAAA,EACR,OAAOA,GAAE,OAAO;AAAA,EAChB,cAAc;AAAA,EACd,SAASA,GAAE,OAAO;AAAA,EAClB,sBAAsBA,GAAE,OAAO,EAAE,IAAI,EAAE,SAAS;AAAA,EAChD,qBAAqBA,GAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA,EAClD,oBAAoBA,GAAE,OAAO,EAAE,IAAI,EAAE,YAAY;AAAA,EACjD,YAAYA,GAAE,OAAO,EAAE,IAAI,EAAE,IAAI,CAAC;AAAA,EAClC,WAAWA,GAAE,MAAMA,GAAE,OAAO,CAAC;AAAA;AAAA,EAC7B,eAAeA,GAAE,OAAO;AAAA;AAAA,EACxB,qBAAqBA,GAAE,OAAO;AAAA;AAAA,EAG9B,eAAe;AAAA,EACf,uBAAuB;AAAA,EACvB,qBAAqB;AAAA,EACrB,0BAA0B;AAAA,EAC1B,YAAY;AAAA,EACZ,8BAA8B;AAAA,EAE9B,uBAAuB;AAAA,EACvB,qBAAqB;AAAA;AAAA,EAGrB,qBAAqBA,GAAE,OAAOA,GAAE,OAAO,GAAG,qBAAqB;AAAA,EAC/D,oBAAoB;AAAA,EACpB,uBAAuBA,GAAE,MAAMA,GAAE,OAAO,CAAC;AAAA,EAEzC,WAAW;AAAA;AAAA;AAAA,EAGX,wBAAwBA,GAAE,MAAMA,GAAE,OAAO,CAAC;AAAA,EAE1C,OAAOA,GAAE,MAAMA,GAAE,OAAO,CAAC;AAC3B,CAAC;","names":["z","z"]}