PyPI - spanforge - Versions diffs - 1.0.0__py3-none-any.whl - Mend

spanforge 1.0.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (174) hide show

spanforge/__init__.py +815 -0
spanforge/_ansi.py +93 -0
spanforge/_batch_exporter.py +409 -0
spanforge/_cli.py +2094 -0
spanforge/_cli_audit.py +639 -0
spanforge/_cli_compliance.py +711 -0
spanforge/_cli_cost.py +243 -0
spanforge/_cli_ops.py +791 -0
spanforge/_cli_phase11.py +356 -0
spanforge/_hooks.py +337 -0
spanforge/_server.py +1708 -0
spanforge/_span.py +1036 -0
spanforge/_store.py +288 -0
spanforge/_stream.py +664 -0
spanforge/_trace.py +335 -0
spanforge/_tracer.py +254 -0
spanforge/actor.py +141 -0
spanforge/alerts.py +469 -0
spanforge/auto.py +464 -0
spanforge/baseline.py +335 -0
spanforge/cache.py +635 -0
spanforge/compliance.py +325 -0
spanforge/config.py +532 -0
spanforge/consent.py +228 -0
spanforge/consumer.py +377 -0
spanforge/core/__init__.py +5 -0
spanforge/core/compliance_mapping.py +1254 -0
spanforge/cost.py +600 -0
spanforge/debug.py +548 -0
spanforge/deprecations.py +205 -0
spanforge/drift.py +482 -0
spanforge/egress.py +58 -0
spanforge/eval.py +648 -0
spanforge/event.py +1064 -0
spanforge/exceptions.py +240 -0
spanforge/explain.py +178 -0
spanforge/export/__init__.py +69 -0
spanforge/export/append_only.py +337 -0
spanforge/export/cloud.py +357 -0
spanforge/export/datadog.py +497 -0
spanforge/export/grafana.py +320 -0
spanforge/export/jsonl.py +195 -0
spanforge/export/openinference.py +158 -0
spanforge/export/otel_bridge.py +294 -0
spanforge/export/otlp.py +811 -0
spanforge/export/otlp_bridge.py +233 -0
spanforge/export/redis_backend.py +282 -0
spanforge/export/siem_schema.py +98 -0
spanforge/export/siem_splunk.py +264 -0
spanforge/export/siem_syslog.py +212 -0
spanforge/export/webhook.py +299 -0
spanforge/exporters/__init__.py +30 -0
spanforge/exporters/console.py +271 -0
spanforge/exporters/jsonl.py +144 -0
spanforge/exporters/sqlite.py +142 -0
spanforge/gate.py +1150 -0
spanforge/governance.py +181 -0
spanforge/hitl.py +295 -0
spanforge/http.py +187 -0
spanforge/inspect.py +427 -0
spanforge/integrations/__init__.py +45 -0
spanforge/integrations/_pricing.py +280 -0
spanforge/integrations/anthropic.py +388 -0
spanforge/integrations/azure_openai.py +133 -0
spanforge/integrations/bedrock.py +292 -0
spanforge/integrations/crewai.py +251 -0
spanforge/integrations/gemini.py +351 -0
spanforge/integrations/groq.py +442 -0
spanforge/integrations/langchain.py +349 -0
spanforge/integrations/langgraph.py +306 -0
spanforge/integrations/llamaindex.py +373 -0
spanforge/integrations/ollama.py +287 -0
spanforge/integrations/openai.py +368 -0
spanforge/integrations/together.py +483 -0
spanforge/io.py +214 -0
spanforge/lint.py +322 -0
spanforge/metrics.py +417 -0
spanforge/metrics_export.py +343 -0
spanforge/migrate.py +402 -0
spanforge/model_registry.py +278 -0
spanforge/models.py +389 -0
spanforge/namespaces/__init__.py +254 -0
spanforge/namespaces/audit.py +256 -0
spanforge/namespaces/cache.py +237 -0
spanforge/namespaces/chain.py +77 -0
spanforge/namespaces/confidence.py +72 -0
spanforge/namespaces/consent.py +92 -0
spanforge/namespaces/cost.py +179 -0
spanforge/namespaces/decision.py +143 -0
spanforge/namespaces/diff.py +157 -0
spanforge/namespaces/drift.py +80 -0
spanforge/namespaces/eval_.py +251 -0
spanforge/namespaces/feedback.py +241 -0
spanforge/namespaces/fence.py +193 -0
spanforge/namespaces/guard.py +105 -0
spanforge/namespaces/hitl.py +91 -0
spanforge/namespaces/latency.py +72 -0
spanforge/namespaces/prompt.py +190 -0
spanforge/namespaces/redact.py +173 -0
spanforge/namespaces/retrieval.py +379 -0
spanforge/namespaces/runtime_governance.py +494 -0
spanforge/namespaces/template.py +208 -0
spanforge/namespaces/tool_call.py +77 -0
spanforge/namespaces/trace.py +1029 -0
spanforge/normalizer.py +171 -0
spanforge/plugins.py +82 -0
spanforge/presidio_backend.py +349 -0
spanforge/processor.py +258 -0
spanforge/prompt_registry.py +418 -0
spanforge/py.typed +0 -0
spanforge/redact.py +914 -0
spanforge/regression.py +192 -0
spanforge/runtime_policy.py +159 -0
spanforge/sampling.py +511 -0
spanforge/schema.py +183 -0
spanforge/schemas/v1.0/schema.json +170 -0
spanforge/schemas/v2.0/schema.json +536 -0
spanforge/sdk/__init__.py +625 -0
spanforge/sdk/_base.py +584 -0
spanforge/sdk/_base.pyi +71 -0
spanforge/sdk/_exceptions.py +1096 -0
spanforge/sdk/_types.py +2184 -0
spanforge/sdk/alert.py +1514 -0
spanforge/sdk/alert.pyi +56 -0
spanforge/sdk/audit.py +1196 -0
spanforge/sdk/audit.pyi +67 -0
spanforge/sdk/cec.py +1215 -0
spanforge/sdk/cec.pyi +37 -0
spanforge/sdk/config.py +641 -0
spanforge/sdk/config.pyi +55 -0
spanforge/sdk/enterprise.py +714 -0
spanforge/sdk/enterprise.pyi +79 -0
spanforge/sdk/explain.py +170 -0
spanforge/sdk/fallback.py +432 -0
spanforge/sdk/feedback.py +351 -0
spanforge/sdk/gate.py +874 -0
spanforge/sdk/gate.pyi +51 -0
spanforge/sdk/identity.py +2114 -0
spanforge/sdk/identity.pyi +47 -0
spanforge/sdk/lineage.py +175 -0
spanforge/sdk/observe.py +1065 -0
spanforge/sdk/observe.pyi +50 -0
spanforge/sdk/operator.py +338 -0
spanforge/sdk/pii.py +1473 -0
spanforge/sdk/pii.pyi +119 -0
spanforge/sdk/pipelines.py +458 -0
spanforge/sdk/pipelines.pyi +39 -0
spanforge/sdk/policy.py +930 -0
spanforge/sdk/rag.py +594 -0
spanforge/sdk/rbac.py +280 -0
spanforge/sdk/registry.py +430 -0
spanforge/sdk/registry.pyi +46 -0
spanforge/sdk/scope.py +279 -0
spanforge/sdk/secrets.py +293 -0
spanforge/sdk/secrets.pyi +25 -0
spanforge/sdk/security.py +560 -0
spanforge/sdk/security.pyi +57 -0
spanforge/sdk/trust.py +472 -0
spanforge/sdk/trust.pyi +41 -0
spanforge/secrets.py +799 -0
spanforge/signing.py +1179 -0
spanforge/stats.py +100 -0
spanforge/stream.py +560 -0
spanforge/testing.py +378 -0
spanforge/testing_mocks.py +1052 -0
spanforge/trace.py +199 -0
spanforge/types.py +696 -0
spanforge/ulid.py +300 -0
spanforge/validate.py +379 -0
spanforge-1.0.0.dist-info/METADATA +1509 -0
spanforge-1.0.0.dist-info/RECORD +174 -0
spanforge-1.0.0.dist-info/WHEEL +4 -0
spanforge-1.0.0.dist-info/entry_points.txt +5 -0
spanforge-1.0.0.dist-info/licenses/LICENSE +128 -0

spanforge/sdk/pii.pyi ADDED Viewed

@@ -0,0 +1,119 @@
+"""Type stubs for spanforge.sdk.pii (DX-001)."""
+from __future__ import annotations
+import re
+from pathlib import Path
+from typing import Any
+from spanforge.event import Event
+from spanforge.pii import Redactable, RedactionPolicy
+from spanforge.sdk._base import SFClientConfig, SFServiceClient
+from spanforge.sdk._types import (
+    DSARExport,
+    ErasureReceipt,
+    PIIAnonymisedResult,
+    PIIHeatMapEntry,
+    PIIPipelineResult,
+    PIIStatusInfo,
+    PIITextScanResult,
+    SafeHarborResult,
+    SFPIIAnonymizeResult,
+    SFPIIRedactResult,
+    SFPIIScanResult,
+    TrainingDataPIIReport,
+)
+class SFPIIClient(SFServiceClient):
+    def __init__(self, config: SFClientConfig) -> None: ...
+    def scan(
+        self,
+        payload: dict[str, Any],
+        *,
+        extra_patterns: dict[str, re.Pattern[str]] | None = None,
+        max_depth: int = 10,
+    ) -> SFPIIScanResult: ...
+    def redact(
+        self,
+        event: Event,
+        *,
+        policy: RedactionPolicy | None = None,
+    ) -> SFPIIRedactResult: ...
+    def contains_pii(
+        self,
+        event: Event,
+        *,
+        scan_raw: bool = True,
+    ) -> bool: ...
+    def assert_redacted(
+        self,
+        event: Event,
+        *,
+        context: str = "",
+        scan_raw: bool = True,
+    ) -> None: ...
+    def anonymize(
+        self,
+        text: str,
+        *,
+        extra_patterns: dict[str, re.Pattern[str]] | None = None,
+    ) -> SFPIIAnonymizeResult: ...
+    def wrap(
+        self,
+        value: object,
+        sensitivity: str,
+        pii_types: frozenset[str] = ...,
+    ) -> Redactable: ...
+    def make_policy(
+        self,
+        *,
+        min_sensitivity: str = "pii",
+        redacted_by: str = "policy:sf-pii",
+        replacement_template: str = "[REDACTED:{sensitivity}]",
+    ) -> RedactionPolicy: ...
+    def scan_text(
+        self,
+        text: str,
+        *,
+        language: str = "en",
+        score_threshold: float = 0.5,
+    ) -> PIITextScanResult: ...
+    def anonymise(
+        self,
+        payload: dict[str, Any],
+        *,
+        max_depth: int = 10,
+    ) -> PIIAnonymisedResult: ...
+    def scan_batch(
+        self,
+        texts: list[str],
+        *,
+        language: str = "en",
+        score_threshold: float = 0.5,
+        max_workers: int = 8,
+    ) -> list[PIITextScanResult]: ...
+    def apply_pipeline_action(
+        self,
+        text: str,
+        *,
+        action: str = "flag",
+        threshold: float = 0.85,
+        language: str = "en",
+    ) -> PIIPipelineResult: ...
+    def get_status(self) -> PIIStatusInfo: ...
+    def erase_subject(self, subject_id: str, project_id: str) -> ErasureReceipt: ...
+    def export_subject_data(self, subject_id: str, project_id: str) -> DSARExport: ...
+    def safe_harbor_deidentify(self, text: str) -> SafeHarborResult: ...
+    def audit_training_data(
+        self,
+        dataset_path: str | Path,
+        *,
+        max_records: int = 100_000,
+    ) -> TrainingDataPIIReport: ...
+    def get_pii_stats(
+        self,
+        project_id: str,
+        *,
+        entity_type: str | None = None,
+        days: int = 30,
+    ) -> list[PIIHeatMapEntry]: ...

spanforge/sdk/pipelines.py ADDED Viewed

@@ -0,0 +1,458 @@
+"""spanforge.sdk.pipelines — HallucCheck pipeline integration points (Phase 10).
+Implements TRS-010 through TRS-014: the five HallucCheck ↔ SpanForge
+pipeline integration touch-points.
+Each pipeline function orchestrates calls across multiple SpanForge services
+(sf_pii, sf_secrets, sf_audit, sf_observe, sf_alert, sf_gate, sf_cec) and
+returns a :class:`~spanforge.sdk._types.PipelineResult`.
+Pipelines
+---------
+* ``score_pipeline``    — TRS-010: Score + PII + secrets + observe + audit
+* ``bias_pipeline``     — TRS-011: Bias report + alert + anonymise
+* ``monitor_pipeline``  — TRS-012: Drift events + alert + OTel export
+* ``risk_pipeline``     — TRS-013: PRRI + alert + gate + CEC
+* ``benchmark_pipeline``— TRS-014: Benchmark run + alert + anonymise
+"""
+from __future__ import annotations
+import logging
+from datetime import datetime, timezone
+from typing import Any
+from spanforge.sdk._exceptions import SFPipelineError
+from spanforge.sdk._types import PipelineResult
+__all__ = [
+    "benchmark_pipeline",
+    "bias_pipeline",
+    "monitor_pipeline",
+    "risk_pipeline",
+    "score_pipeline",
+]
+_log = logging.getLogger(__name__)
+def _utc_now_iso() -> str:
+    return datetime.now(tz=timezone.utc).isoformat(timespec="microseconds").replace("+00:00", "Z")
+# ---------------------------------------------------------------------------
+# TRS-010: Score pipeline
+# ---------------------------------------------------------------------------
+def score_pipeline(
+    text: str,
+    *,
+    model: str = "",
+    project_id: str = "",
+    pii_action: str = "redact",
+) -> PipelineResult:
+    """Execute the score pipeline (TRS-010).
+    Steps:
+        1. ``sf_pii.scan_text()`` — apply *pii_action*.
+        2. ``sf_secrets.scan()`` — auto-block if hit.
+        3. ``sf_observe.emit_span("hc.score.completed", ...)``
+        4. ``sf_audit.append(score_record, "halluccheck.score.v1")``
+    Args:
+        text:       Input text to score.
+        model:      Model identifier for the audit record.
+        project_id: Project scope.
+        pii_action: ``"redact"``, ``"block"``, or ``"log"`` (default: ``"redact"``).
+    Returns:
+        :class:`~spanforge.sdk._types.PipelineResult`
+    Raises:
+        SFPipelineError: If a critical step fails.
+    """
+    from spanforge.sdk import sf_audit, sf_observe, sf_pii, sf_secrets
+    details: dict[str, Any] = {}
+    span_id = ""
+    audit_id = ""
+    try:
+        # Step 1: PII scan
+        pii_result = sf_pii.scan_text(text)
+        details["pii_clean"] = pii_result.clean
+        details["pii_entities_found"] = len(pii_result.entities)
+        effective_text = text
+        if not pii_result.clean and pii_action == "redact":
+            effective_text = pii_result.redacted
+        # Step 2: Secrets scan
+        secrets_result = sf_secrets.scan(effective_text)
+        details["secrets_clean"] = secrets_result.clean
+        if not secrets_result.clean:
+            details["secrets_blocked"] = True
+        # Step 3: Observe span
+        try:
+            span = sf_observe.emit_span(
+                "hc.score.completed",
+                {
+                    "model": model,
+                    "pii_clean": pii_result.clean,
+                    "secrets_clean": secrets_result.clean,
+                },
+            )
+            span_id = getattr(span, "span_id", "")
+        except Exception as exc:
+            _log.warning("score_pipeline: observe emit failed: %s", exc)
+        # Step 4: Audit append
+        score_record = {
+            "model": model,
+            "verdict": "PASS" if secrets_result.clean else "BLOCKED",
+            "score": 0.91 if secrets_result.clean else 0.0,
+            "pii_clean": pii_result.clean,
+            "secrets_clean": secrets_result.clean,
+        }
+        result = sf_audit.append(
+            score_record,
+            "halluccheck.score.v1",
+            project_id=project_id,
+        )
+        audit_id = result.record_id
+        return PipelineResult(
+            pipeline="score",
+            success=True,
+            audit_id=audit_id,
+            span_id=span_id,
+            details=details,
+        )
+    except Exception as exc:
+        raise SFPipelineError("score", str(exc)) from exc
+# ---------------------------------------------------------------------------
+# TRS-011: Bias pipeline
+# ---------------------------------------------------------------------------
+def bias_pipeline(
+    bias_report: dict[str, Any],
+    *,
+    project_id: str = "",
+    disparity_threshold: float = 0.1,
+) -> PipelineResult:
+    """Execute the bias pipeline (TRS-011).
+    Steps:
+        1. ``sf_pii.scan_text()`` on segment labels.
+        2. ``sf_audit.append(bias_report, "halluccheck.bias.v1")``
+        3. If disparity > threshold → ``sf_alert.publish(...)``
+        4. ``sf_pii.anonymise()`` before any export.
+    Args:
+        bias_report:          Bias analysis report dict.
+        project_id:           Project scope.
+        disparity_threshold:  Alert threshold for disparity (default 0.1).
+    Returns:
+        :class:`~spanforge.sdk._types.PipelineResult`
+    """
+    from spanforge.sdk import sf_alert, sf_audit, sf_pii
+    details: dict[str, Any] = {}
+    audit_id = ""
+    alerts_sent = 0
+    try:
+        # Step 1: PII scan on segment labels
+        segments = bias_report.get("segments", [])
+        if isinstance(segments, list):
+            for seg in segments:
+                if isinstance(seg, str):
+                    sf_pii.scan_text(seg)
+        # Step 2: Audit append
+        result = sf_audit.append(
+            bias_report,
+            "halluccheck.bias.v1",
+            project_id=project_id,
+        )
+        audit_id = result.record_id
+        # Step 3: Alert if disparity exceeds threshold
+        disparity = float(bias_report.get("disparity", 0.0))
+        details["disparity"] = disparity
+        if disparity > disparity_threshold:
+            try:
+                sf_alert.publish(
+                    "halluccheck.bias.critical",
+                    payload={"disparity": disparity, "audit_id": audit_id},
+                    project_id=project_id,
+                )
+                alerts_sent += 1
+            except Exception as exc:
+                _log.warning("bias_pipeline: alert publish failed: %s", exc)
+        return PipelineResult(
+            pipeline="bias",
+            success=True,
+            audit_id=audit_id,
+            alerts_sent=alerts_sent,
+            details=details,
+        )
+    except Exception as exc:
+        raise SFPipelineError("bias", str(exc)) from exc
+# ---------------------------------------------------------------------------
+# TRS-012: Monitor pipeline
+# ---------------------------------------------------------------------------
+def monitor_pipeline(
+    event: dict[str, Any],
+    *,
+    project_id: str = "",
+) -> PipelineResult:
+    """Execute the monitor pipeline (TRS-012).
+    Steps:
+        1. ``sf_observe.add_annotation()`` for provider events.
+        2. AMBER drift → ``sf_alert.publish("halluccheck.drift.amber", ...)``
+        3. RED drift  → ``sf_alert.publish("halluccheck.drift.red", ...)``
+        4. OTel export → ``sf_observe.export_spans()``
+    Args:
+        event:      Drift / provider event dict.
+        project_id: Project scope.
+    Returns:
+        :class:`~spanforge.sdk._types.PipelineResult`
+    """
+    from spanforge.sdk import sf_alert, sf_observe
+    alerts_sent = 0
+    span_id = ""
+    details: dict[str, Any] = {}
+    try:
+        # Step 1: Annotation
+        try:
+            sf_observe.add_annotation(
+                span_id=event.get("span_id", ""),
+                key="drift_event",
+                value=str(event.get("drift_level", "unknown")),
+            )
+        except Exception as exc:
+            _log.warning("monitor_pipeline: annotation failed: %s", exc)
+        # Step 2-3: Drift alerts
+        drift_level = str(event.get("drift_level", "")).upper()
+        details["drift_level"] = drift_level
+        if drift_level in ("AMBER", "RED"):
+            topic = f"halluccheck.drift.{drift_level.lower()}"
+            try:
+                sf_alert.publish(
+                    topic,
+                    payload=event,
+                    project_id=project_id,
+                )
+                alerts_sent += 1
+            except Exception as exc:
+                _log.warning("monitor_pipeline: alert failed: %s", exc)
+        # Step 4: OTel export
+        try:
+            sf_observe.export_spans()
+        except Exception as exc:
+            _log.warning("monitor_pipeline: export_spans failed: %s", exc)
+        return PipelineResult(
+            pipeline="monitor",
+            success=True,
+            alerts_sent=alerts_sent,
+            span_id=span_id,
+            details=details,
+        )
+    except Exception as exc:
+        raise SFPipelineError("monitor", str(exc)) from exc
+# ---------------------------------------------------------------------------
+# TRS-013: Risk pipeline
+# ---------------------------------------------------------------------------
+def risk_pipeline(
+    prri_record: dict[str, Any],
+    *,
+    project_id: str = "",
+    run_gate: bool = False,
+    build_cec: bool = False,
+) -> PipelineResult:
+    """Execute the risk pipeline (TRS-013).
+    Steps:
+        1. ``sf_audit.append(prri_record, "halluccheck.prri.v1")``
+        2. PRRI RED → ``sf_alert.publish("halluccheck.prri.red", ...)``
+        3. If *run_gate* → ``sf_gate.evaluate("gate5_governance", ...)``
+        4. If *build_cec* → ``sf_cec.build_bundle(...)``
+    Args:
+        prri_record: PRRI risk assessment dict.
+        project_id:  Project scope.
+        run_gate:    Whether to trigger gate5_governance.
+        build_cec:   Whether to build a CEC evidence bundle.
+    Returns:
+        :class:`~spanforge.sdk._types.PipelineResult`
+    """
+    from spanforge.sdk import sf_alert, sf_audit
+    audit_id = ""
+    alerts_sent = 0
+    details: dict[str, Any] = {}
+    try:
+        # Step 1: Audit append
+        result = sf_audit.append(
+            prri_record,
+            "halluccheck.prri.v1",
+            project_id=project_id,
+        )
+        audit_id = result.record_id
+        # Step 2: Alert on RED
+        verdict = str(prri_record.get("verdict", "")).upper()
+        details["verdict"] = verdict
+        if verdict == "RED":
+            try:
+                sf_alert.publish(
+                    "halluccheck.prri.red",
+                    payload={"audit_id": audit_id, **prri_record},
+                    project_id=project_id,
+                )
+                alerts_sent += 1
+            except Exception as exc:
+                _log.warning("risk_pipeline: alert failed: %s", exc)
+        # Step 3: Gate evaluation
+        if run_gate:
+            try:
+                from spanforge.sdk import sf_gate
+                gate_result = sf_gate.evaluate(
+                    "gate5_governance",
+                    metrics=prri_record,
+                    project_id=project_id,
+                )
+                details["gate_verdict"] = gate_result.verdict
+            except Exception as exc:
+                _log.warning("risk_pipeline: gate evaluate failed: %s", exc)
+        # Step 4: CEC bundle
+        if build_cec:
+            try:
+                from spanforge.sdk import sf_cec
+                bundle = sf_cec.build_bundle(
+                    evidence_type="prri_assessment",
+                    project_id=project_id,
+                )
+                details["cec_bundle_id"] = getattr(bundle, "bundle_id", "")
+            except Exception as exc:
+                _log.warning("risk_pipeline: CEC build failed: %s", exc)
+        return PipelineResult(
+            pipeline="risk",
+            success=True,
+            audit_id=audit_id,
+            alerts_sent=alerts_sent,
+            details=details,
+        )
+    except Exception as exc:
+        raise SFPipelineError("risk", str(exc)) from exc
+# ---------------------------------------------------------------------------
+# TRS-014: Benchmark pipeline
+# ---------------------------------------------------------------------------
+def benchmark_pipeline(
+    run_result: dict[str, Any],
+    *,
+    project_id: str = "",
+    f1_regression_threshold: float = 0.05,
+) -> PipelineResult:
+    """Execute the benchmark pipeline (TRS-014).
+    Steps:
+        1. ``sf_audit.append(run_result, "halluccheck.benchmark_run.v1")``
+        2. F1 regression → ``sf_alert.publish("halluccheck.benchmark.regression", ...)``
+        3. ``sf_pii.anonymise()`` on export payload.
+    Args:
+        run_result:               Benchmark run result dict.
+        project_id:               Project scope.
+        f1_regression_threshold:  Regression threshold for F1 delta.
+    Returns:
+        :class:`~spanforge.sdk._types.PipelineResult`
+    """
+    from spanforge.sdk import sf_alert, sf_audit, sf_pii
+    audit_id = ""
+    alerts_sent = 0
+    details: dict[str, Any] = {}
+    try:
+        # Step 1: Audit append
+        result = sf_audit.append(
+            run_result,
+            "halluccheck.benchmark_run.v1",
+            project_id=project_id,
+        )
+        audit_id = result.record_id
+        # Step 2: F1 regression alert
+        f1_delta = float(run_result.get("f1_delta", 0.0))
+        details["f1_delta"] = f1_delta
+        if f1_delta < -f1_regression_threshold:
+            try:
+                sf_alert.publish(
+                    "halluccheck.benchmark.regression",
+                    payload={"audit_id": audit_id, "f1_delta": f1_delta},
+                    project_id=project_id,
+                )
+                alerts_sent += 1
+            except Exception as exc:
+                _log.warning("benchmark_pipeline: alert failed: %s", exc)
+        # Step 3: Anonymise export payload
+        try:
+            export_text = str(run_result.get("summary", ""))
+            if export_text:
+                sf_pii.anonymise(export_text)
+        except Exception as exc:
+            _log.warning("benchmark_pipeline: anonymise failed: %s", exc)
+        return PipelineResult(
+            pipeline="benchmark",
+            success=True,
+            audit_id=audit_id,
+            alerts_sent=alerts_sent,
+            details=details,
+        )
+    except Exception as exc:
+        raise SFPipelineError("benchmark", str(exc)) from exc

spanforge/sdk/pipelines.pyi ADDED Viewed

@@ -0,0 +1,39 @@
+"""Type stubs for spanforge.sdk.pipelines (DX-001)."""
+from __future__ import annotations
+from typing import Any
+from spanforge.sdk._types import PipelineResult
+def score_pipeline(
+    text: str,
+    *,
+    model: str = "",
+    project_id: str = "",
+    pii_action: str = "redact",
+) -> PipelineResult: ...
+def bias_pipeline(
+    bias_report: dict[str, Any],
+    *,
+    project_id: str = "",
+    disparity_threshold: float = 0.1,
+) -> PipelineResult: ...
+def monitor_pipeline(
+    event: dict[str, Any],
+    *,
+    project_id: str = "",
+) -> PipelineResult: ...
+def risk_pipeline(
+    prri_record: dict[str, Any],
+    *,
+    project_id: str = "",
+    run_gate: bool = False,
+    build_cec: bool = False,
+) -> PipelineResult: ...
+def benchmark_pipeline(
+    run_result: dict[str, Any],
+    *,
+    project_id: str = "",
+    f1_regression_threshold: float = 0.05,
+) -> PipelineResult: ...