PyPI - evalvault - Versions diffs - 1.65.0__py3-none-any.whl → 1.66.0__py3-none-any.whl - Mend

evalvault 1.65.0py3-none-any.whl → 1.66.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (28) hide show

evalvault/adapters/inbound/api/adapter.py +14 -0
evalvault/adapters/inbound/api/main.py +14 -4
evalvault/adapters/inbound/api/routers/chat.py +543 -0
evalvault/adapters/inbound/cli/commands/run.py +14 -0
evalvault/adapters/inbound/cli/commands/run_helpers.py +21 -2
evalvault/adapters/outbound/report/llm_report_generator.py +13 -1
evalvault/adapters/outbound/storage/base_sql.py +41 -1
evalvault/adapters/outbound/tracker/langfuse_adapter.py +1 -0
evalvault/adapters/outbound/tracker/mlflow_adapter.py +5 -0
evalvault/adapters/outbound/tracker/phoenix_adapter.py +29 -2
evalvault/config/settings.py +21 -0
evalvault/domain/entities/prompt.py +1 -1
evalvault/domain/metrics/__init__.py +8 -0
evalvault/domain/metrics/registry.py +39 -3
evalvault/domain/metrics/summary_accuracy.py +189 -0
evalvault/domain/metrics/summary_needs_followup.py +45 -0
evalvault/domain/metrics/summary_non_definitive.py +41 -0
evalvault/domain/metrics/summary_risk_coverage.py +45 -0
evalvault/domain/services/custom_metric_snapshot.py +233 -0
evalvault/domain/services/evaluator.py +280 -27
evalvault/domain/services/prompt_registry.py +39 -10
evalvault/domain/services/threshold_profiles.py +4 -0
evalvault/domain/services/visual_space_service.py +79 -4
{evalvault-1.65.0.dist-info → evalvault-1.66.0.dist-info}/METADATA +25 -1
{evalvault-1.65.0.dist-info → evalvault-1.66.0.dist-info}/RECORD +28 -22
{evalvault-1.65.0.dist-info → evalvault-1.66.0.dist-info}/WHEEL +0 -0
{evalvault-1.65.0.dist-info → evalvault-1.66.0.dist-info}/entry_points.txt +0 -0
{evalvault-1.65.0.dist-info → evalvault-1.66.0.dist-info}/licenses/LICENSE.md +0 -0

evalvault/domain/services/prompt_registry.py CHANGED Viewed

@@ -109,30 +109,59 @@ def build_prompt_summary(bundle: PromptSetBundle) -> dict[str, Any]:
 def build_prompt_inputs_from_snapshots(
     snapshots: dict[str, dict[str, Any]] | None,
+    *,
+    kind: PromptKind = "ragas",
+    source: str | None = None,
 ) -> list[PromptInput]:
     if not snapshots:
         return []
     prompt_inputs: list[PromptInput] = []
     for metric_name, entry in snapshots.items():
-        prompt_text = entry.get("prompt") if isinstance(entry, dict) else None
+        if not isinstance(entry, dict):
+            continue
+        entry_source = entry.get("source")
+        resolved_source = source if source else entry_source
+        metadata = {key: value for key, value in entry.items() if key != "prompt"}
+        prompts_map = entry.get("prompts")
+        if isinstance(prompts_map, dict) and prompts_map:
+            for prompt_key, prompt_text in prompts_map.items():
+                if not isinstance(prompt_text, str):
+                    continue
+                normalized = prompt_text.strip()
+                if not normalized:
+                    continue
+                prompt_inputs.append(
+                    PromptInput(
+                        content=normalized,
+                        name=f"{kind}.{metric_name}.{prompt_key}",
+                        kind=kind,
+                        role=f"{metric_name}.{prompt_key}",
+                        source=(
+                            resolved_source
+                            if isinstance(resolved_source, str) and resolved_source
+                            else kind
+                        ),
+                        metadata=metadata or None,
+                    )
+                )
+            continue
+        prompt_text = entry.get("prompt")
         if not isinstance(prompt_text, str):
             continue
         prompt_text = prompt_text.strip()
         if not prompt_text:
             continue
-        source = entry.get("source") if isinstance(entry, dict) else None
-        metadata = {
-            key: value
-            for key, value in entry.items()
-            if key != "prompt" and isinstance(entry, dict)
-        }
         prompt_inputs.append(
             PromptInput(
                 content=prompt_text,
-                name=f"ragas.{metric_name}",
-                kind="ragas",
+                name=f"{kind}.{metric_name}",
+                kind=kind,
                 role=str(metric_name),
-                source=source if isinstance(source, str) and source else "ragas",
+                source=resolved_source
+                if isinstance(resolved_source, str) and resolved_source
+                else kind,
                 metadata=metadata or None,
             )
         )

evalvault/domain/services/threshold_profiles.py CHANGED Viewed

@@ -8,6 +8,10 @@ SUMMARY_RECOMMENDED_THRESHOLDS = {
     "summary_faithfulness": 0.90,
     "summary_score": 0.85,
     "entity_preservation": 0.90,
+    "summary_accuracy": 0.90,
+    "summary_risk_coverage": 0.90,
+    "summary_non_definitive": 0.80,
+    "summary_needs_followup": 0.80,
 }
 QA_RECOMMENDED_THRESHOLDS = {
     "faithfulness": 0.70,

evalvault/domain/services/visual_space_service.py CHANGED Viewed

@@ -233,13 +233,13 @@ def _aggregate_stage_metrics(metrics: Iterable[StageMetric]) -> dict[str, dict[s
     aggregated: dict[str, dict[str, float]] = {}
     for name, entries in buckets.items():
-        scores = [m.score for m in entries]
+        scores = [m.score for m in entries if m.score is not None]
         threshold = next(
             (m.threshold for m in entries if m.threshold is not None),
             DEFAULT_STAGE_THRESHOLDS.get(name),
         )
         aggregated[name] = {
-            "avg": mean(scores) if scores else None,
+            "avg": mean(scores) if scores else 0.0,
             "threshold": threshold if threshold is not None else DEFAULT_METRIC_THRESHOLD,
         }
     return aggregated
@@ -770,6 +770,77 @@ def _build_case_coords(result: TestCaseResult) -> dict[str, float | None]:
             ),
         ]
     )
+    if x_value is None:
+        x_value = _weighted_average(
+            [
+                (
+                    _centered_norm(
+                        scores.get("summary_accuracy"), thresholds.get("summary_accuracy")
+                    ),
+                    0.4,
+                ),
+                (
+                    _centered_norm(
+                        scores.get("summary_risk_coverage"),
+                        thresholds.get("summary_risk_coverage"),
+                    ),
+                    0.3,
+                ),
+                (
+                    _centered_norm(
+                        scores.get("summary_faithfulness"),
+                        thresholds.get("summary_faithfulness"),
+                    ),
+                    0.2,
+                ),
+                (
+                    _centered_norm(scores.get("summary_score"), thresholds.get("summary_score")),
+                    0.1,
+                ),
+                (
+                    _centered_norm(
+                        scores.get("entity_preservation"),
+                        thresholds.get("entity_preservation"),
+                    ),
+                    0.2,
+                ),
+            ]
+        )
+    if y_value is None:
+        y_value = _weighted_average(
+            [
+                (
+                    _centered_norm(
+                        scores.get("summary_accuracy"), thresholds.get("summary_accuracy")
+                    ),
+                    0.35,
+                ),
+                (
+                    _centered_norm(
+                        scores.get("summary_non_definitive"),
+                        thresholds.get("summary_non_definitive"),
+                    ),
+                    0.35,
+                ),
+                (
+                    _centered_norm(
+                        scores.get("summary_needs_followup"),
+                        thresholds.get("summary_needs_followup"),
+                    ),
+                    0.3,
+                ),
+                (
+                    _centered_norm(
+                        scores.get("entity_preservation"),
+                        thresholds.get("entity_preservation"),
+                    ),
+                    0.2,
+                ),
+            ]
+        )
     return {"x": x_value, "y": y_value}
@@ -799,8 +870,12 @@ def _build_cluster_points(
     points = []
     for cluster_id, coords_list in clusters.items():
-        x_values = [c.get("x") for c in coords_list if c.get("x") is not None]
-        y_values = [c.get("y") for c in coords_list if c.get("y") is not None]
+        x_values = [
+            value for value in (c.get("x") for c in coords_list) if isinstance(value, (int, float))
+        ]
+        y_values = [
+            value for value in (c.get("y") for c in coords_list) if isinstance(value, (int, float))
+        ]
         x_avg = mean(x_values) if x_values else None
         y_avg = mean(y_values) if y_values else None
         quadrant = _quadrant_label(x_avg, y_avg)

{evalvault-1.65.0.dist-info → evalvault-1.66.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: evalvault
-Version: 1.65.0
+Version: 1.66.0
 Summary: RAG evaluation system using Ragas with Phoenix/Langfuse tracing
 Project-URL: Homepage, https://github.com/ntts9990/EvalVault
 Project-URL: Documentation, https://github.com/ntts9990/EvalVault#readme
@@ -25,6 +25,7 @@ Classifier: Topic :: Software Development :: Quality Assurance
 Classifier: Topic :: Software Development :: Testing
 Classifier: Typing :: Typed
 Requires-Python: >=3.12
+Requires-Dist: chainlit>=2.9.5
 Requires-Dist: chardet
 Requires-Dist: fastapi>=0.128.0
 Requires-Dist: instructor
@@ -137,12 +138,17 @@ English version? See `README.en.md`.
 ## Quick Links
 - 문서 허브: `docs/INDEX.md`
+- CLI 실행 시나리오 가이드: `docs/guides/RAG_CLI_WORKFLOW_TEMPLATES.md`
 - 사용자 가이드: `docs/guides/USER_GUIDE.md`
 - 개발 가이드: `docs/guides/DEV_GUIDE.md`
 - 상태/로드맵: `docs/STATUS.md`, `docs/ROADMAP.md`
 - 개발 백서(설계/운영/품질 기준): `docs/new_whitepaper/INDEX.md`
 - Open RAG Trace: `docs/architecture/open-rag-trace-spec.md`
+### 다음 개선 작업 메모
+- 보험 요약 메트릭 확장 계획: `docs/guides/INSURANCE_SUMMARY_METRICS_PLAN.md`
+- Prompt 반복 적용 계획: `docs/guides/repeat_query.md`
 ---
 ## EvalVault가 해결하는 문제
@@ -470,6 +476,24 @@ npm run dev
 - Ragas 계열: `faithfulness`, `answer_relevancy`, `context_precision`, `context_recall`, `factual_correctness`, `semantic_similarity`
 - 커스텀 예시(도메인): `insurance_term_accuracy`
+### 요약 메트릭 설계 근거 (summary_score, summary_faithfulness, entity_preservation)
+### 커스텀 메트릭 스냅샷 (평가 방식/과정/결과 기록)
+- 평가 방식/입출력/규칙/구현 파일 해시를 `run.tracker_metadata.custom_metric_snapshot`에 기록합니다.
+- Excel `CustomMetrics` 시트와 Langfuse/Phoenix/MLflow artifact에도 함께 저장됩니다.
+- `summary_faithfulness`: 요약의 모든 주장이 컨텍스트에 근거하는지 평가합니다. 환각/왜곡 리스크를 직접적으로 측정합니다.
+- `summary_score`: 컨텍스트 대비 요약의 핵심 정보 보존/간결성 균형을 평가합니다. 정답 요약 단일 기준의 편향을 줄입니다.
+- `entity_preservation`: 금액·기간·조건·면책 등 보험 약관에서 중요한 엔티티가 요약에 유지되는지 측정합니다.
+**보험 도메인 특화 근거**
+- 보험 약관에서 치명적인 요소(면책, 자기부담, 한도, 조건 등)를 키워드로 직접 반영하고, 금액/기간/비율 같은 핵심 엔티티를 보존하도록 설계했습니다.
+- 범용 규칙(숫자/기간/금액)과 보험 특화 키워드를 함께 사용하므로, 현재 상태는 “보험 리스크 중심의 약한 도메인 특화”로 보는 것이 정확합니다.
+**해석 주의사항**
+- 세 메트릭 모두 `contexts` 품질에 크게 의존합니다. 컨텍스트가 부정확/과도하면 점수가 낮아질 수 있습니다.
+- `summary_score`는 키프레이즈 기반이므로, 표현이 달라지면 점수가 낮게 나올 수 있습니다.
 정확한 옵션/운영 레시피는 `docs/guides/USER_GUIDE.md`를 기준으로 최신화합니다.
 ---

{evalvault-1.65.0.dist-info → evalvault-1.66.0.dist-info}/RECORD RENAMED Viewed

@@ -5,10 +5,11 @@ evalvault/mkdocs_helpers.py,sha256=1AKVQ1W2_VO4qclhfyefyU9Dz1Hzkh1DWDwsFMe24jc,3
 evalvault/adapters/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 evalvault/adapters/inbound/__init__.py,sha256=SG1svel1PwqetnqVpKFLSv612_WwGwLTbFpYgwk6FMw,166
 evalvault/adapters/inbound/api/__init__.py,sha256=LeVVttCA3tLKoHA2PO4z3y8VkfVcf3Bq8CZSzo91lf4,34
-evalvault/adapters/inbound/api/adapter.py,sha256=tYkJciUUFOK80QcSwzrqkXP1G4qUFItFV7uBYbjBGqU,68473
-evalvault/adapters/inbound/api/main.py,sha256=lRuyg3aBs5jIk7tq4p4d7jrRkFpV_brZypoOq8s56Rk,6896
+evalvault/adapters/inbound/api/adapter.py,sha256=HgWSYyUxvJPlaSG158WVzpPckpPCYV9Ec3CWN8rLFdI,69118
+evalvault/adapters/inbound/api/main.py,sha256=skYtmDngdOBryyLXQpNGlSd2Te6RF6GtfIwcMACPHFU,7068
 evalvault/adapters/inbound/api/routers/__init__.py,sha256=q07_YF9TnBl68bqcRCvhPU4-zRTyvmPoHVehwO6W7QM,19
 evalvault/adapters/inbound/api/routers/benchmark.py,sha256=yevntbZcNtMvbVODsITUBgR1Ka4pdFQrXBJJ4K4Jyr4,4477
+evalvault/adapters/inbound/api/routers/chat.py,sha256=3S6-ljiY1COlDuVDH5yzMJs9SO0EkuosRcJIYScHWvI,18143
 evalvault/adapters/inbound/api/routers/config.py,sha256=LygN0fVMr8NFtj5zuQXnVFhoafx56Txa98vpwtPa4Jc,4104
 evalvault/adapters/inbound/api/routers/domain.py,sha256=RsR7GIFMjccDN7vpG1uDyk9n1DnCTH18JDGAX7o4Qqc,3648
 evalvault/adapters/inbound/api/routers/knowledge.py,sha256=yb_e7OEPtwldOAzHTGiWe7jShHw2JdpOFnzGPMceRsg,7109
@@ -42,8 +43,8 @@ evalvault/adapters/inbound/cli/commands/pipeline.py,sha256=NeqWLzO9kRDuZd0pHAIHg
 evalvault/adapters/inbound/cli/commands/profile_difficulty.py,sha256=nOJH3iqgLAlXq4keLBj5oqpiRCg0jjGgT-7Q57HxEh8,6665
 evalvault/adapters/inbound/cli/commands/prompts.py,sha256=lddde5VbjYaqN_9gHPLNu6DWpg5fE-KqZzjN-XYwvJw,27153
 evalvault/adapters/inbound/cli/commands/regress.py,sha256=Dy8hUOdjapxOW9Hoov0DHHblkMaExiqWfYS14CaC9Kk,8806
-evalvault/adapters/inbound/cli/commands/run.py,sha256=X19rgXhajhvZNA4c0JMmzmPatTxhZgfapuW07bZL9xA,119265
-evalvault/adapters/inbound/cli/commands/run_helpers.py,sha256=hu2TioocitUZzGR7HUwZ6gOeEJSvt5tGNjwXOlo4Eic,40336
+evalvault/adapters/inbound/cli/commands/run.py,sha256=aKoZcQbOJ1KB_4zPk4L-AWw3u9vGWg3SaooR7A3Xd_Y,119910
+evalvault/adapters/inbound/cli/commands/run_helpers.py,sha256=93jFUg8QLrD38QU2JhOhFMoHDWUphSEKRdJ5KcUvrkQ,40806
 evalvault/adapters/inbound/cli/commands/stage.py,sha256=oRC9c5CysLX90Iy5Ba1pc_00DaOBS78lcBvzkbdrGRM,17123
 evalvault/adapters/inbound/cli/utils/__init__.py,sha256=QPNKneZS-Z-tTnYYxtgJXgcJWY6puUlRQcKrn7Mlv1M,685
 evalvault/adapters/inbound/cli/utils/analysis_io.py,sha256=RHkKEq4e-PtbtRDlXAJWU80RYHNPw-O5V9_GujdaGfc,13393
@@ -177,10 +178,10 @@ evalvault/adapters/outbound/nlp/korean/toolkit_factory.py,sha256=x3v-AAkVInOabC4
 evalvault/adapters/outbound/phoenix/sync_service.py,sha256=i6gHpNiZXKQ5yzV9B2TPb-P1N45k_Ck5ruzh3oqp4d8,9122
 evalvault/adapters/outbound/report/__init__.py,sha256=8OUduTHnWkBLHYrc7mBg45DnAwz0RgvSJmz1HqxVjLY,477
 evalvault/adapters/outbound/report/dashboard_generator.py,sha256=Dcu18NTK4lS8XNKnnnquagpZkd-4TSf5Mb2isFNW5Pk,7800
-evalvault/adapters/outbound/report/llm_report_generator.py,sha256=HUDA_IPBbl54cyEjTTJzdKTQ6H4IoZi-1VBdVmZf0uI,26593
+evalvault/adapters/outbound/report/llm_report_generator.py,sha256=i_iXfY8qutIb8TsvLKyMLnijsA0yiNJ3rBEFg4zVqcE,26858
 evalvault/adapters/outbound/report/markdown_adapter.py,sha256=5PS72h_qe4ZtYs-umhX5TqQL2k5SuDaCUc6rRw9AKRw,16761
 evalvault/adapters/outbound/storage/__init__.py,sha256=n5R6thAPTx1leSwv6od6nBWcLWFa-UYD6cOLzN89T8I,614
-evalvault/adapters/outbound/storage/base_sql.py,sha256=7jWtmNDBHncLDABf5ewwQJnfhFjySTfpfDJmEbPBD1w,40823
+evalvault/adapters/outbound/storage/base_sql.py,sha256=bNjJr941wqeLgv4E772JlOer1Q8OpJWxyotsNNn_R98,42536
 evalvault/adapters/outbound/storage/benchmark_storage_adapter.py,sha256=Qgf9xSSIkYQRpG4uLzcUdoYO9LTQDQ4tFRkkMYer-WA,9803
 evalvault/adapters/outbound/storage/postgres_adapter.py,sha256=HLaoQ3YJDFwOxeY0S92oPIqb-7EgWSasgt89RM86vr0,47148
 evalvault/adapters/outbound/storage/postgres_schema.sql,sha256=A9MfO0pjf4kjxoRj2KPI0Gg1cbX13I2YE3oieT-PGiI,8906
@@ -193,10 +194,10 @@ evalvault/adapters/outbound/tracer/open_rag_trace_decorators.py,sha256=LFnk-3FSL
 evalvault/adapters/outbound/tracer/open_rag_trace_helpers.py,sha256=D48Mbj-ioDKztjhV9513Q5DiUNiVdO60B_2sWMFEmnI,3520
 evalvault/adapters/outbound/tracer/phoenix_tracer_adapter.py,sha256=inmTAolAVsm0IrszE9VTJoI7HSvGGAnGNZVu_vZRAGg,741
 evalvault/adapters/outbound/tracker/__init__.py,sha256=Suu5BznOK5uTuD5_jS8JMZd8RPfQNlddLxHCBvMTm_4,358
-evalvault/adapters/outbound/tracker/langfuse_adapter.py,sha256=oi6bnz2qjDSXEea_bACFRUEKk-tKw53d1xMfL4FE5dI,18749
+evalvault/adapters/outbound/tracker/langfuse_adapter.py,sha256=uI-t5v9AC5VUMYsIc1FHYImourZeErGMXB0_prOMErc,18839
 evalvault/adapters/outbound/tracker/log_sanitizer.py,sha256=ilKTTSzsHslQYc-elnWu0Z3HKNNw1D1iI0_cCvYbo1M,2653
-evalvault/adapters/outbound/tracker/mlflow_adapter.py,sha256=m4xj3XBULFYg27U3twKrldLhbLyLNefezmb2pCpHJrw,7180
-evalvault/adapters/outbound/tracker/phoenix_adapter.py,sha256=VmGkVuBX5Nae6zTaaSbpcA94spFJGmwjW0gOh2vIxnk,25332
+evalvault/adapters/outbound/tracker/mlflow_adapter.py,sha256=6pSxbxSDZE7jN7uSMU6VFg0JlO7cBiMLYcd53NYpfcY,7350
+evalvault/adapters/outbound/tracker/phoenix_adapter.py,sha256=8p2qJeKn6OvIxNbD16h_QrhmCzKIBIf8_ej535MNn_A,26443
 evalvault/config/__init__.py,sha256=UCgeDx62M2gOuFvdN29wWwny2fdH4bPY_uUC3-42eDw,1297
 evalvault/config/agent_types.py,sha256=EP2Pv3ZtOzDXIvIa-Hnd1to9JIbMUtGitrlwzZtx0Ys,13418
 evalvault/config/domain_config.py,sha256=rOgNA2T8NWlDzcEFC0shdUCCww0lI1E5fUm5QrKQSZI,9264
@@ -205,7 +206,7 @@ evalvault/config/langfuse_support.py,sha256=DEzVMfMGGf1V45W_2oUG-NCDfsYI4UUdnYJI
 evalvault/config/model_config.py,sha256=KlzDbGyDLeOGE7ElekFFk5YjjT5u8i6KO2B4EyZkLnI,3542
 evalvault/config/phoenix_support.py,sha256=e6RPWd6Qb7KU6Q8pLaYTpJGWULtvEEU6B0xHWyVyOH0,13604
 evalvault/config/secret_manager.py,sha256=YjPMuNqeBrAR2BzCJvsBNUExaU4TBSFyZ8kVYZZifqA,4172
-evalvault/config/settings.py,sha256=JKJf8t20sOHYnHoCfTxqupQixNgfmWYJhChiGMNz-W0,17617
+evalvault/config/settings.py,sha256=xvoNma4CHAd8R_nF0DL4MUWXBWCR5M0C68NPSPLT5JQ,18285
 evalvault/config/playbooks/improvement_playbook.yaml,sha256=9F9WVVCydFfz6zUuGYzZ4PKdW1LLtcBKVF36T7xT764,26965
 evalvault/domain/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 evalvault/domain/entities/__init__.py,sha256=wszRJ1Imdc5NJ1bQPC2udk-mAgFdlw4uZV5IPNjLpHQ,3669
@@ -222,20 +223,24 @@ evalvault/domain/entities/judge_calibration.py,sha256=fhQEI7g2nZuG1OliikhxgefcFA
 evalvault/domain/entities/kg.py,sha256=8awN1M4vxAGQZk_ZG8i2CXKTizQ8FA1VCLhUWHZq0U8,3001
 evalvault/domain/entities/memory.py,sha256=bfS75q8K8_jNrB7IYh4mjP8Lkyj-I0TVsmHCP0FuICw,8423
 evalvault/domain/entities/method.py,sha256=a3jZi7SjcpK3HeVyVwQkUMwpnmg2RbxCnH4NqYPLCOI,1157
-evalvault/domain/entities/prompt.py,sha256=VzuUzqkqXv0FwTSNGyV5sSCft5sxTbG_Noq6Ymnke5o,2910
+evalvault/domain/entities/prompt.py,sha256=lQlRnHEKY69GWTC-cUIu0DMuPfJ9UWm6Sm4KTNjVwfY,2920
 evalvault/domain/entities/prompt_suggestion.py,sha256=Ep_XSjdYUj7pFSCMyeeZKs8yTnp74AVx05Zqr7829PE,1243
 evalvault/domain/entities/rag_trace.py,sha256=sZgnkG4fK6KOe3Np6TYAZ_tPnsRbOmucDSQns35U1n4,11868
 evalvault/domain/entities/result.py,sha256=OaGHMDLWMW2O4fNVuVTUvWFVBQ1iu93OD_oI3NumrCQ,10697
 evalvault/domain/entities/stage.py,sha256=UqS59sjoMs_bhMupNtvagbIx8QgHgFjWoRPhJ3uJP2s,7426
-evalvault/domain/metrics/__init__.py,sha256=fxjC5Z_8OuBIeMn80bYgnZZxpNoay2wH-qtG3NqCUvk,797
+evalvault/domain/metrics/__init__.py,sha256=Ros3CWg5in1xlEdMa0WUSG602SBVkxw2Zbro-XUlmxU,1214
 evalvault/domain/metrics/analysis_registry.py,sha256=JZpBrBs7-JExHKYuEML6Vg_uYLm-WniBE3BfiU5OtJg,7641
 evalvault/domain/metrics/confidence.py,sha256=AX4oeN28OvmMkwD0pT-jskkOlXh87C1pe2W9P1sF69g,17224
 evalvault/domain/metrics/contextual_relevancy.py,sha256=xAPYUv_0TM4j4WOutOSGftNln_l-2Ev6qpANeu4REv8,11057
 evalvault/domain/metrics/entity_preservation.py,sha256=uSCbaETceE5PbGn-230Rm8pryOA8jDkkeOwAkWxA65g,6500
 evalvault/domain/metrics/insurance.py,sha256=5NPeAi_86rpuZRgV4KhzomGrq3Uw2jjglN6FfA_AO8o,4040
 evalvault/domain/metrics/no_answer.py,sha256=x6vRyOa1jw-qsnw9kOYT8YMPdLElaDRu7zjNCpyJfqM,8237
-evalvault/domain/metrics/registry.py,sha256=QKjo4RNHxCqObGg36xJP3KAHqFpHM50Jy7GeSksdz0Y,5665
+evalvault/domain/metrics/registry.py,sha256=1CKPxSjdXK739zhzwodukGDL-dIhlJJH30cuP-czQWc,6926
 evalvault/domain/metrics/retrieval_rank.py,sha256=F55ByadJBowyKHKBmKAZ0T0qN_R1_7UNu-MiLnT4Ypg,14675
+evalvault/domain/metrics/summary_accuracy.py,sha256=Hr4QS1e4Rxt1MgcTj5rElKuPw9rWS-zGkI0d8wB5dwA,5988
+evalvault/domain/metrics/summary_needs_followup.py,sha256=5kExtZxxankP7csAAIZe_1uRFeBD7NQK-N15b5d0awM,1357
+evalvault/domain/metrics/summary_non_definitive.py,sha256=1EE-z0Ib66gpjc0MGZHmZJHJfpoACSIldgOwFkUNxg0,1029
+evalvault/domain/metrics/summary_risk_coverage.py,sha256=Fo-dMg_jU4MCr0YqOZzBZymwEbG9y2H6eLX-jmuS8IU,1777
 evalvault/domain/metrics/terms_dictionary.json,sha256=-ZQmpx6yMOYoAOpcLj-xK2LkAeCbAw0EUb6-syIOKS0,3801
 evalvault/domain/metrics/text_match.py,sha256=P-YTZs9ekDqEmxLNBP8eXnMRymPdC8V4dJPtwG2ajVM,10219
 evalvault/domain/services/__init__.py,sha256=X5Af1kf_vSt3S3mFwOV6OQdro-lFxwbVdNd7nJznkC8,1024
@@ -248,6 +253,7 @@ evalvault/domain/services/benchmark_runner.py,sha256=4tvQEDrfvp2fC2luUPuPBcRjEPL
 evalvault/domain/services/benchmark_service.py,sha256=TrmnvBMAPmcs0PewGZcn2rxHbviZ8KxmDvJCeyqm28I,6286
 evalvault/domain/services/cache_metrics.py,sha256=FKNZoxym30lc1SxTGmTn3Pr-PDNoAqgC9_d_IdF_jOQ,3463
 evalvault/domain/services/cluster_map_builder.py,sha256=qPKMPj-eSqECJSCOKvv3ZETgIwxwiKWbU3d6_feCoDg,6885
+evalvault/domain/services/custom_metric_snapshot.py,sha256=_MLOzBlHTRyTQ2NuunZ_lrLVF0__kvEcCUxXVVCeoRA,9684
 evalvault/domain/services/dataset_preprocessor.py,sha256=PnhLiPk0E9DIzjUr8N75296CCfl1AUXGv-lpaXBi0Ok,14797
 evalvault/domain/services/debug_report_service.py,sha256=SGdFh8tctAIq7RotFbg47eetxdYSS4Yju7-LOzpCMCM,4386
 evalvault/domain/services/difficulty_profile_reporter.py,sha256=uIj9-eiO2dDvQ6tP-DJBddfBq8VT63st0wtNC8Co4NQ,680
@@ -257,7 +263,7 @@ evalvault/domain/services/document_versioning.py,sha256=M1qZaMpQ2exVT1wkVAmvEPPu
 evalvault/domain/services/domain_learning_hook.py,sha256=rhKBmdnrJyfGzFNsNxzyv8jZO26-WOosHSmBV_9qdJg,7176
 evalvault/domain/services/embedding_overlay.py,sha256=ZTNxUPXpHGbQ3Uri5DD3feTUFn7qrhuNshhyCQEvRuM,3559
 evalvault/domain/services/entity_extractor.py,sha256=f3Rf5saK8QsgetLNK1Hbxzt8PtttJZCicSR63S8DJ5k,14141
-evalvault/domain/services/evaluator.py,sha256=cKcPRoqkUFc00lgx_blbIFl0qJyPIDjPeCciWAPm7m8,67669
+evalvault/domain/services/evaluator.py,sha256=Fvth2VdckDJvGuwxbXPnvPfQU59WZSJHV63H4qji4lM,78815
 evalvault/domain/services/experiment_comparator.py,sha256=IBrxIwux-8GucwlLx6e5lUqB9miSPvBLGJK9ctoW7Y0,3299
 evalvault/domain/services/experiment_manager.py,sha256=2k-qGiAUyZuqqmcp4P-M3Z9HTXwwcqW5HQYKNkcIHuI,4863
 evalvault/domain/services/experiment_reporter.py,sha256=QYlVmCFSx8hKTPMezc7QjJE07b3MSQ82Q4QVucSHLVY,1420
@@ -276,7 +282,7 @@ evalvault/domain/services/pipeline_orchestrator.py,sha256=yriVlEVZYDtt0Vwt4Ae6xy
 evalvault/domain/services/pipeline_template_registry.py,sha256=aWqXLQ24grpSZo9M4tZLRo1ysD10c6hUpW3JupZH9e0,28083
 evalvault/domain/services/prompt_candidate_service.py,sha256=Ibyb5EaWK28Ju2HnTqHHGOoiA9Q-VwY3hjxVODALwGY,3997
 evalvault/domain/services/prompt_manifest.py,sha256=5s5Kd6-_Dn-xrjjlU99CVo6njsPhvE50H5m_85U-H6U,5612
-evalvault/domain/services/prompt_registry.py,sha256=THcNs4jqp4FTLv9uO-VVvN6XGorkGrcIUwQH1dL74o8,4166
+evalvault/domain/services/prompt_registry.py,sha256=QyL4yIcKT93uv6L0-Q_iaNXno8QnsC19YcGekuSRMtE,5247
 evalvault/domain/services/prompt_scoring_service.py,sha256=SlvfuIbhj92RJu4RQAJ1BGKhKkOAUOt3cZNH21HtsX4,9833
 evalvault/domain/services/prompt_status.py,sha256=r1dFLGz4SfRxXaxsULQsr0-HpJkG9YfZ_yLIxF1MMBo,6731
 evalvault/domain/services/prompt_suggestion_reporter.py,sha256=Fc6sCPebUMk8SZVpjoJ6bCEun0ma-YmayEQnulBVv8s,10577
@@ -292,9 +298,9 @@ evalvault/domain/services/stage_metric_service.py,sha256=_u6ThZ8rGw8H9h3TNpu0j8X
 evalvault/domain/services/stage_summary_service.py,sha256=VVtuAr4vwzvmNFn8rqURJrhKFqAMG4CaBmyGiUk_xG0,1590
 evalvault/domain/services/synthetic_qa_generator.py,sha256=aiOTPoHZbKRTEeodABQ2I5lq8-Vs_kQtuzcGWd4MTGE,16526
 evalvault/domain/services/testset_generator.py,sha256=6IpiZ0pqhKEymo-AlUdfJjDkF2P1n8Md_QKV4nOheyg,4470
-evalvault/domain/services/threshold_profiles.py,sha256=YuOrD5CkXugAdSQYbMsFzS5VS1R201JOJtpKTs4dpXU,1296
+evalvault/domain/services/threshold_profiles.py,sha256=yYJ7o8SIRufI7kUN8edh8am-dVOq_TEhvDqlHe0WQUQ,1433
 evalvault/domain/services/unified_report_service.py,sha256=lG3VpMLC1MTYUlcGl-MUEE4PUopkyrhcgj4_ye9c_vM,11829
-evalvault/domain/services/visual_space_service.py,sha256=xG2jxKuRuqmQgbWsXOqmytKr6pQ7igQujNgdpb5gyB0,32569
+evalvault/domain/services/visual_space_service.py,sha256=3_qyBsThr5lzP1le6qkXf9ByX3JjoYGX15iMIHe8gQs,34958
 evalvault/ports/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 evalvault/ports/inbound/__init__.py,sha256=2Wsc0vNzH8_ZaErk4OHxP93hRonLUkMbn3W28DtTDO0,562
 evalvault/ports/inbound/analysis_pipeline_port.py,sha256=RJfKtp22AYEqnmRk6RDawAK52rEmyAhuk0FUPJQUwQU,1758
@@ -332,8 +338,8 @@ evalvault/reports/__init__.py,sha256=Bb1X4871msAN8I6PM6nKGED3psPwZt88hXZBAOdH06Y
 evalvault/reports/release_notes.py,sha256=pZj0PBFT-4F_Ty-Kv5P69BuoOnmTCn4kznDcORFJd0w,4011
 evalvault/scripts/__init__.py,sha256=NwEeIFQbkX4ml2R_PhtIoNtArDSX_suuoymgG_7Kwso,89
 evalvault/scripts/regression_runner.py,sha256=SxZori5BZ8jVQ057Mf5V5FPgIVDccrV5oRONmnhuk8w,8438
-evalvault-1.65.0.dist-info/METADATA,sha256=1f23dU3LtSQwrlalym1j8mH-vZaM7HWMzDh-ByjVOjo,24276
-evalvault-1.65.0.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
-evalvault-1.65.0.dist-info/entry_points.txt,sha256=Oj9Xc5gYcyUYYNmQfWI8NYGw7nN-3M-h2ipHIMlVn6o,65
-evalvault-1.65.0.dist-info/licenses/LICENSE.md,sha256=3RNWY4jjtrQ_yYa-D-7I3XO12Ti7YzxsLV_dpykujvo,11358
-evalvault-1.65.0.dist-info/RECORD,,
+evalvault-1.66.0.dist-info/METADATA,sha256=f6jzeYkN1iuFwYJTcI8r5L52hVNZwACOlQuWYvVz_JY,26159
+evalvault-1.66.0.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
+evalvault-1.66.0.dist-info/entry_points.txt,sha256=Oj9Xc5gYcyUYYNmQfWI8NYGw7nN-3M-h2ipHIMlVn6o,65
+evalvault-1.66.0.dist-info/licenses/LICENSE.md,sha256=3RNWY4jjtrQ_yYa-D-7I3XO12Ti7YzxsLV_dpykujvo,11358
+evalvault-1.66.0.dist-info/RECORD,,

{evalvault-1.65.0.dist-info → evalvault-1.66.0.dist-info}/WHEEL RENAMED Viewed

File without changes

{evalvault-1.65.0.dist-info → evalvault-1.66.0.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{evalvault-1.65.0.dist-info → evalvault-1.66.0.dist-info}/licenses/LICENSE.md RENAMED Viewed

File without changes

evalvault 1.65.0__py3-none-any.whl → 1.66.0__py3-none-any.whl

evalvault 1.65.0py3-none-any.whl → 1.66.0py3-none-any.whl