PyPI - invarlock - Versions diffs - 0.3.5__py3-none-any.whl → 0.3.7__py3-none-any.whl - Mend

invarlock 0.3.5py3-none-any.whl → 0.3.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (74) hide show

invarlock/__init__.py +2 -2
invarlock/_data/runtime/tiers.yaml +57 -30
invarlock/adapters/__init__.py +11 -15
invarlock/adapters/auto.py +35 -40
invarlock/adapters/capabilities.py +2 -2
invarlock/adapters/hf_causal.py +418 -0
invarlock/adapters/{hf_onnx.py → hf_causal_onnx.py} +3 -3
invarlock/adapters/hf_mixin.py +25 -4
invarlock/adapters/{hf_bert.py → hf_mlm.py} +4 -11
invarlock/adapters/{hf_t5.py → hf_seq2seq.py} +9 -9
invarlock/calibration/spectral_null.py +15 -10
invarlock/calibration/variance_ve.py +0 -2
invarlock/cli/adapter_auto.py +31 -21
invarlock/cli/app.py +73 -2
invarlock/cli/commands/calibrate.py +6 -2
invarlock/cli/commands/certify.py +651 -91
invarlock/cli/commands/doctor.py +11 -11
invarlock/cli/commands/explain_gates.py +57 -8
invarlock/cli/commands/plugins.py +13 -9
invarlock/cli/commands/report.py +233 -69
invarlock/cli/commands/run.py +1066 -244
invarlock/cli/commands/verify.py +154 -15
invarlock/cli/config.py +22 -6
invarlock/cli/doctor_helpers.py +4 -5
invarlock/cli/output.py +193 -0
invarlock/cli/provenance.py +1 -1
invarlock/core/api.py +45 -5
invarlock/core/auto_tuning.py +65 -20
invarlock/core/bootstrap.py +1 -1
invarlock/core/contracts.py +7 -1
invarlock/core/registry.py +11 -13
invarlock/core/runner.py +425 -75
invarlock/edits/quant_rtn.py +65 -37
invarlock/eval/bench.py +3 -16
invarlock/eval/data.py +82 -51
invarlock/eval/metrics.py +63 -2
invarlock/eval/primary_metric.py +23 -0
invarlock/eval/tail_stats.py +230 -0
invarlock/eval/tasks/__init__.py +12 -0
invarlock/eval/tasks/classification.py +48 -0
invarlock/eval/tasks/qa.py +36 -0
invarlock/eval/tasks/text_generation.py +102 -0
invarlock/guards/_estimators.py +154 -0
invarlock/guards/invariants.py +19 -10
invarlock/guards/policies.py +16 -6
invarlock/guards/rmt.py +627 -546
invarlock/guards/spectral.py +348 -110
invarlock/guards/tier_config.py +32 -30
invarlock/guards/variance.py +7 -31
invarlock/guards_ref/rmt_ref.py +23 -23
invarlock/model_profile.py +90 -42
invarlock/observability/health.py +6 -6
invarlock/observability/metrics.py +108 -0
invarlock/reporting/certificate.py +384 -55
invarlock/reporting/certificate_schema.py +3 -2
invarlock/reporting/dataset_hashing.py +15 -2
invarlock/reporting/guards_analysis.py +350 -277
invarlock/reporting/html.py +55 -5
invarlock/reporting/normalizer.py +13 -0
invarlock/reporting/policy_utils.py +38 -36
invarlock/reporting/primary_metric_utils.py +71 -17
invarlock/reporting/render.py +852 -431
invarlock/reporting/report.py +40 -4
invarlock/reporting/report_types.py +11 -3
invarlock/reporting/telemetry.py +86 -0
invarlock/reporting/validate.py +1 -18
{invarlock-0.3.5.dist-info → invarlock-0.3.7.dist-info}/METADATA +27 -13
{invarlock-0.3.5.dist-info → invarlock-0.3.7.dist-info}/RECORD +72 -65
{invarlock-0.3.5.dist-info → invarlock-0.3.7.dist-info}/WHEEL +1 -1
{invarlock-0.3.5.dist-info → invarlock-0.3.7.dist-info}/entry_points.txt +5 -3
invarlock/adapters/hf_gpt2.py +0 -404
invarlock/adapters/hf_llama.py +0 -487
{invarlock-0.3.5.dist-info → invarlock-0.3.7.dist-info}/licenses/LICENSE +0 -0
{invarlock-0.3.5.dist-info → invarlock-0.3.7.dist-info}/top_level.txt +0 -0

invarlock/reporting/html.py CHANGED Viewed

@@ -12,19 +12,69 @@ from typing import Any
 from .render import render_certificate_markdown
+markdown_module: Any | None = None
+try:
+    import markdown as _markdown  # type: ignore[import-untyped]
+except Exception:  # pragma: no cover - optional dependency
+    _markdown = None
+else:
+    markdown_module = _markdown
+_STATUS_BADGES = {
+    "\u2705 PASS": '<span class="badge pass">PASS</span>',
+    "\u2705 OK": '<span class="badge pass">OK</span>',
+    "\u274c FAIL": '<span class="badge fail">FAIL</span>',
+    "\u26a0\ufe0f WARN": '<span class="badge warn">WARN</span>',
+    "\u26a0 WARN": '<span class="badge warn">WARN</span>',
+}
+def _apply_status_badges(html_body: str) -> str:
+    updated = html_body
+    for token, replacement in _STATUS_BADGES.items():
+        updated = updated.replace(token, replacement)
+    return updated
 def render_certificate_html(certificate: dict[str, Any]) -> str:
     """Render a certificate as a simple HTML document.
-    Uses the Markdown renderer and embeds the content in a <pre> block to ensure
-    stable parity for snapshot tests without extra dependencies.
+    Uses the Markdown renderer and converts to HTML when available, falling back
+    to a <pre> block when the markdown dependency is missing.
     """
     md = render_certificate_markdown(certificate)
-    body = f'<pre class="invarlock-md">{escape(md)}</pre>'
+    if markdown_module is None:
+        body = f'<pre class="invarlock-md">{escape(md)}</pre>'
+    else:
+        html_body = markdown_module.markdown(md, extensions=["tables", "fenced_code"])
+        html_body = _apply_status_badges(html_body)
+        body = f'<div class="invarlock-md">{html_body}</div>'
     return (
         '<!DOCTYPE html><html><head><meta charset="utf-8">'
-        "<title>InvarLock Safety Certificate</title>"
-        "<style>body{font-family:ui-monospace,Menlo,monospace;white-space:pre-wrap}</style>"
+        "<title>InvarLock Evaluation Certificate</title>"
+        "<style>"
+        ":root{--pass:#2da44e;--fail:#cf222e;--warn:#bf8700;--ink:#1f2328;"
+        "--muted:#57606a;--panel:#f6f8fa;--border:#d0d7de}"
+        "body{font-family:ui-sans-serif,system-ui,-apple-system,Segoe UI,sans-serif;"
+        "color:var(--ink);background:linear-gradient(180deg,#fff, #f6f8fa);"
+        "margin:0;padding:32px}"
+        ".invarlock-md{max-width:960px;margin:0 auto;padding:24px;background:#fff;"
+        "border:1px solid var(--border);border-radius:16px;box-shadow:0 10px 30px rgba(0,0,0,0.05)}"
+        "h1,h2,h3{margin-top:1.4em}h1{margin-top:0}"
+        "table{border-collapse:collapse;width:100%;margin:12px 0}"
+        "th,td{border:1px solid var(--border);padding:6px 8px;text-align:left}"
+        "code,pre{background:var(--panel);border-radius:8px}"
+        "pre{padding:12px;overflow:auto}"
+        ".badge{display:inline-block;padding:2px 8px;border-radius:999px;"
+        "font-size:0.75rem;font-weight:700;letter-spacing:0.02em;color:#fff}"
+        ".badge.pass{background:var(--pass)}"
+        ".badge.fail{background:var(--fail)}"
+        ".badge.warn{background:var(--warn)}"
+        "@media print{body{background:#fff;padding:0}.invarlock-md{box-shadow:none;"
+        "border:0}a{color:inherit;text-decoration:none}.badge{color:#000;"
+        "border:1px solid #000;background:transparent}}"
+        "</style>"
         "</head><body>" + body + "</body></html>"
     )

invarlock/reporting/normalizer.py CHANGED Viewed

@@ -55,6 +55,8 @@ def normalize_run_report(report: Mapping[str, Any] | RunReport) -> RunReport:
     }
     # Preserve additional provenance knobs used by certificate/digests.
     for key in (
+        "pm_acceptance_range",
+        "pm_drift_band",
         "policy_overrides",
         "overrides",
         "plugins",
@@ -179,10 +181,16 @@ def normalize_run_report(report: Mapping[str, Any] | RunReport) -> RunReport:
         "latency_ms_p50",
         "latency_ms_p95",
         "memory_mb_peak",
+        "gpu_memory_mb_peak",
+        "gpu_memory_reserved_mb_peak",
+        "timings",
+        "guard_timings",
+        "memory_snapshots",
         "throughput_sps",
         "spectral",
         "rmt",
         "invariants",
+        "primary_metric_tail",
         "logloss_delta_ci",
         "bootstrap",
         "reduction",
@@ -237,6 +245,11 @@ def normalize_run_report(report: Mapping[str, Any] | RunReport) -> RunReport:
         flags=flags,
     )
+    # keep context when provided (profile/assurance provenance)
+    ctx = src.get("context")
+    if isinstance(ctx, Mapping):
+        out["context"] = dict(ctx)
     # keep evaluation_windows if provided (for deeper pairing-based features)
     ew = src.get("evaluation_windows")
     if isinstance(ew, dict):

invarlock/reporting/policy_utils.py CHANGED Viewed

@@ -48,6 +48,10 @@ def _compute_thresholds_payload(
     if not isinstance(pm_policy, dict):
         pm_policy = {}
+    pm_tail_policy = metrics_policy.get("pm_tail", {})
+    if not isinstance(pm_tail_policy, dict):
+        pm_tail_policy = {}
     acc_policy = metrics_policy.get("accuracy", {})
     if not isinstance(acc_policy, dict):
         acc_policy = {}
@@ -76,6 +80,12 @@ def _compute_thresholds_payload(
         resolved_policy.get("variance", {}) if isinstance(resolved_policy, dict) else {}
     )
+    def _safe_float_any(value: Any, default: float) -> float:
+        try:
+            return float(value)
+        except Exception:
+            return float(default)
     payload = {
         "tier": tier_lc,
         "pm_ratio": {
@@ -86,6 +96,22 @@ def _compute_thresholds_payload(
             ),
             "hysteresis_ratio": float(pm_policy.get("hysteresis_ratio", 0.0) or 0.0),
         },
+        "pm_tail": {
+            "mode": str(pm_tail_policy.get("mode", "warn") or "warn").strip().lower(),
+            "min_windows": int(pm_tail_policy.get("min_windows", 0) or 0),
+            "quantile": _safe_float_any(pm_tail_policy.get("quantile", 0.95), 0.95),
+            "quantile_max": (
+                float(pm_tail_policy.get("quantile_max"))
+                if isinstance(pm_tail_policy.get("quantile_max"), int | float)
+                else None
+            ),
+            "epsilon": _safe_float_any(pm_tail_policy.get("epsilon", 0.0), 0.0),
+            "mass_max": (
+                float(pm_tail_policy.get("mass_max"))
+                if isinstance(pm_tail_policy.get("mass_max"), int | float)
+                else None
+            ),
+        },
         "accuracy": {
             "delta_min_pp": float(acc_policy.get("delta_min_pp", -1.0) or -1.0),
             "min_examples": int(acc_policy.get("min_examples", 200) or 200),
@@ -110,16 +136,6 @@ def _compute_thresholds_hash(payload: dict[str, Any]) -> str:
     return hashlib.sha256(canonical.encode("utf-8")).hexdigest()[:16]
-def _promote_legacy_multiple_testing_key(payload: dict[str, Any]) -> None:
-    """Promote legacy 'multipletesting' to 'multiple_testing' in-place if present."""
-    try:
-        legacy_mt = payload.pop("multipletesting", None)
-        if legacy_mt is not None and "multiple_testing" not in payload:
-            payload["multiple_testing"] = legacy_mt
-    except Exception:
-        pass
 def _resolve_policy_tier(report: RunReport) -> str:
     """Resolve the policy tier from report metadata or context."""
     tier: Any = None
@@ -218,15 +234,9 @@ def _build_resolved_policies(
     from .policy_utils import _format_family_caps as _ffc  # self import safe
     spectral_resolved["family_caps"] = _ffc(spectral_caps)
-    # Prefer observed policy sigma_quantile (accepting legacy aliases), then fallback
     pol_sq = None
     try:
         pol_sq = (spectral.get("policy", {}) or {}).get("sigma_quantile")
-        if pol_sq is None:
-            # Legacy aliases
-            pol_sq = (spectral.get("policy", {}) or {}).get("contraction") or (
-                spectral.get("policy", {}) or {}
-            ).get("kappa")
     except Exception:
         pol_sq = None
     spectral_resolved["sigma_quantile"] = _safe_float(
@@ -276,6 +286,9 @@ def _build_resolved_policies(
         spectral_resolved["max_spectral_norm"] = spectral.get("policy", {}).get(
             "max_spectral_norm", spectral_resolved.get("max_spectral_norm")
         )
+    mc = spectral.get("measurement_contract")
+    if isinstance(mc, dict) and mc:
+        spectral_resolved["measurement_contract"] = copy.deepcopy(mc)
     resolved["spectral"] = spectral_resolved
     # RMT guard
@@ -295,15 +308,16 @@ def _build_resolved_policies(
     rmt_resolved["epsilon_default"] = _safe_float(epsilon_default_val, 0.1)
     from .policy_utils import _format_epsilon_map as _fem
-    epsilon_map = _fem(rmt.get("epsilon_by_family") or rmt_resolved.pop("epsilon", {}))
+    epsilon_map = _fem(
+        rmt.get("epsilon_by_family") or rmt_resolved.get("epsilon_by_family") or {}
+    )
     if epsilon_map:
         rmt_resolved["epsilon_by_family"] = epsilon_map
-    else:
-        rmt_resolved.pop("epsilon", None)
-    if "epsilon" in rmt_resolved:
-        rmt_resolved.pop("epsilon", None)
     if "correct" in rmt_resolved:
         rmt_resolved["correct"] = bool(rmt_resolved["correct"])
+    mc = rmt.get("measurement_contract")
+    if isinstance(mc, dict) and mc:
+        rmt_resolved["measurement_contract"] = copy.deepcopy(mc)
     resolved["rmt"] = rmt_resolved
     # Variance guard
@@ -441,13 +455,9 @@ def _extract_effective_policies(report: RunReport) -> dict[str, Any]:
             elif guard_name == "spectral":
                 sigma_quantile = guard_metrics.get(
                     "sigma_quantile",
-                    guard_metrics.get("contraction", guard_metrics.get("kappa", 0.95)),
-                )
-                multiple_testing = guard_metrics.get("multiple_testing") or (
-                    guard_metrics.get("multipletesting")
-                    if isinstance(guard_metrics.get("multipletesting"), dict)
-                    else None
+                    0.95,
                 )
+                multiple_testing = guard_metrics.get("multiple_testing")
                 guard_policy = {
                     "max_spectral_norm": guard_metrics.get("max_spectral_norm"),
                     "stability_score": guard_metrics.get("stability_score", 0.95),
@@ -473,20 +483,13 @@ def _extract_effective_policies(report: RunReport) -> dict[str, Any]:
         if guard_policy:
             if guard_name == "spectral":
-                sigma_quantile = guard_policy.get("sigma_quantile")
-                if sigma_quantile is None:
-                    sigma_quantile = guard_policy.get("contraction")
-                if sigma_quantile is None and "kappa" in guard_policy:
-                    sigma_quantile = guard_policy["kappa"]
                 sanitized_policy = dict(guard_policy)
+                sigma_quantile = sanitized_policy.get("sigma_quantile")
                 if sigma_quantile is not None:
                     try:
                         sanitized_policy["sigma_quantile"] = float(sigma_quantile)
                     except (TypeError, ValueError):
                         pass
-                _promote_legacy_multiple_testing_key(sanitized_policy)
-                sanitized_policy.pop("contraction", None)
-                sanitized_policy.pop("kappa", None)
                 if sanitized_policy.get("max_spectral_norm") in (None, 0):
                     sanitized_policy["max_spectral_norm"] = None
                 guard_policy = sanitized_policy
@@ -587,7 +590,6 @@ __all__ = [
     "_compute_variance_policy_digest",
     "_compute_thresholds_payload",
     "_compute_thresholds_hash",
-    "_promote_legacy_multiple_testing_key",
     "_resolve_policy_tier",
     "_build_resolved_policies",
     "_extract_effective_policies",

invarlock/reporting/primary_metric_utils.py CHANGED Viewed

@@ -30,6 +30,38 @@ def attach_primary_metric(
         pm = m.get("primary_metric") if isinstance(m, dict) else None
         if isinstance(pm, dict) and pm:
             pm_copy = copy.deepcopy(pm)
+            pm_copy.setdefault("invalid", bool(pm_copy.get("invalid", False)))
+            degraded_reason = pm_copy.get("degraded_reason")
+            preview_val = pm_copy.get("preview")
+            final_val = pm_copy.get("final")
+            ratio_val = pm_copy.get("ratio_vs_baseline")
+            baseline_final = (
+                baseline_ref.get("primary_metric", {}).get("final")
+                if isinstance(baseline_ref, dict)
+                else None
+            )
+            def _is_finite(value: Any) -> bool:
+                return isinstance(value, (int, float)) and math.isfinite(float(value))
+            baseline_has_reference = _is_finite(baseline_final)
+            needs_pm_fallback = not (_is_finite(preview_val) and _is_finite(final_val))
+            needs_ratio_fallback = baseline_has_reference and not _is_finite(ratio_val)
+            if degraded_reason is None:
+                if needs_pm_fallback:
+                    degraded_reason = "non_finite_pm"
+                elif needs_ratio_fallback:
+                    degraded_reason = "non_finite_delta"
+                elif pm_copy.get("invalid"):
+                    degraded_reason = "primary_metric_invalid"
+            pm_copy["degraded"] = bool(
+                pm_copy.get("degraded") or pm_copy.get("invalid") or degraded_reason
+            )
+            if pm_copy["degraded"] and degraded_reason:
+                pm_copy.setdefault("degraded_reason", degraded_reason)
             # Propagate instability hint from ppl_analysis
             try:
                 if isinstance(ppl_analysis, dict) and bool(
@@ -75,33 +107,52 @@ def attach_primary_metric(
                             pm_copy["analysis_point_final"] = float(mean_fin)
                     # Attach analysis-basis CIs for preview/final in log space from report metrics
                     try:
-                        dlci = (
-                            _coerce_interval(m.get("logloss_delta_ci"))
-                            if isinstance(m, dict)
-                            else (math.nan, math.nan)
-                        )
-                        if isinstance(dlci, tuple | list) and len(dlci) == 2:
-                            lo, hi = float(dlci[0]), float(dlci[1])
-                            if math.isfinite(lo) and math.isfinite(hi):
-                                pm_copy.setdefault("ci", (lo, hi))
+                        dlci_source: tuple[float, float] | list[float] | None = None
+                        pairing_source = None
+                        if isinstance(ppl_analysis, dict):
+                            stats = ppl_analysis.get("stats") or {}
+                            if isinstance(stats, dict):
+                                pairing_source = stats.get("pairing")
+                            if pairing_source == "paired_baseline":
+                                dlci_source = _coerce_interval(
+                                    ppl_analysis.get("logloss_delta_ci")
+                                )
+                        if dlci_source is None:
+                            dlci_source = (
+                                _coerce_interval(m.get("logloss_delta_ci"))
+                                if isinstance(m, dict)
+                                else (math.nan, math.nan)
+                            )
+                        if (
+                            isinstance(dlci_source, tuple | list)
+                            and len(dlci_source) == 2
+                        ):
+                            lo_raw, hi_raw = dlci_source[0], dlci_source[1]
+                            if isinstance(lo_raw, (int, float)) and isinstance(
+                                hi_raw, (int, float)
+                            ):
+                                lo, hi = float(lo_raw), float(hi_raw)
+                                if math.isfinite(lo) and math.isfinite(hi):
+                                    pm_copy.setdefault("ci", (lo, hi))
                     except Exception:
                         pass
                 except Exception:
                     pass
             # Ensure ratio_vs_baseline present and consistent
             try:
-                base_final = (
-                    baseline_ref.get("primary_metric", {}).get("final")
-                    if isinstance(baseline_ref, dict)
+                fin = pm_copy.get("final")
+                baseline_final_val = (
+                    float(baseline_final)
+                    if isinstance(baseline_final, (int, float))
+                    and _is_finite(baseline_final)
                     else None
                 )
-                fin = pm_copy.get("final")
                 if (
-                    isinstance(fin, int | float)
-                    and isinstance(base_final, int | float)
-                    and float(base_final) > 0
+                    isinstance(fin, (int, float))
+                    and baseline_final_val is not None
+                    and baseline_final_val > 0
                 ):
-                    pm_copy["ratio_vs_baseline"] = float(fin) / float(base_final)
+                    pm_copy["ratio_vs_baseline"] = float(fin) / baseline_final_val
                 # Ensure display_ci aligns with log-space CI for ppl-like metrics
                 try:
                     kind = str(pm_copy.get("kind", "")).lower()
@@ -277,6 +328,9 @@ def attach_primary_metric(
                 if isinstance(point, float):
                     pm["display_ci"] = [point, point]
                 else:
+                    # As last resort, emit a degenerate [1.0, 1.0] to satisfy schema invariants
                     pm["display_ci"] = [1.0, 1.0]
+                    pm.setdefault("estimated", True)
     except Exception:
         pass

invarlock 0.3.5__py3-none-any.whl → 0.3.7__py3-none-any.whl

invarlock 0.3.5py3-none-any.whl → 0.3.7py3-none-any.whl