PyPI - eval-toolkit - Versions diffs - 1.0.1__tar.gz → 1.0.2__tar.gz - Mend

eval-toolkit 1.0.1tar.gz → 1.0.2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (185) hide show

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/CHANGELOG.md RENAMED Viewed

@@ -5,6 +5,55 @@ All notable changes to this project will be documented in this file.
 The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.1.0/),
 and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0.html).
+## [1.0.2] — 2026-05-26 — #76 cleanup batch closes (RC2 + RC3 + F-metrics-1/3/4)
+Closes the GH #76 v1.0.1 cleanup tracker. All 6 items shipped across
+v1.0.1 (RC4) and v1.0.2 (this release). All P3, all NON-BREAKING.
+### Changed (Tier-2 ADDITIVE: contract clarification only)
+- **RC2** (#76) — `SimilarityStrategy` Protocol promoted from
+  "pre-v0.7 internal interface" (prose framing only) to formal
+  10th strict Tier-2 Protocol per [ADR 0003](docs/source/adr/0003-stability-contract-and-gate3-methodology.md).
+  Aligns prose surfaces (README, extending.md, strict_tier2_protocols.md,
+  api/protocols.md, ADR 0004 §D6, roadmap.md) with the contract
+  already locked in `tests/golden/public_api/snapshot.json` +
+  `src/eval_toolkit/__init__.py:_EXPORTS` since v1.0.0. **No code
+  change — documentation-only reconciliation.** Strict-Tier-2 count
+  goes 9 → 10 (+ 1 opt-in `Versioned`).
+### Fixed
+- **RC3** (#76) — `tests/test_harness_folded.py::test_evaluate_folded_reseed_splitter_varies_partitions`
+  test hardening. Previous assertions covered count + key existence
+  only; a regression silently reusing the splitter (R8-C1 pre-fix
+  behavior) could still pass. v1.0.2 adds row-content comparison:
+  replays `reseed_splitter` against the splitter for `seed=1` vs
+  `seed=2` and asserts fold-0 test partitions differ via feature-text
+  set membership (robust to `_slice_subset`'s `reset_index(drop=True)`
+  via stable text-column identifiers).
+- **F-metrics-1** (#76) — `brier_score` docstring input-domain clarity.
+  Added explicit "Input domain" Notes subsection clarifying binary
+  labels in `{0, 1}` + calibrated probabilities in `[0, 1]` are
+  required; raw logits or unbounded ranking scores pass the finiteness
+  check but produce out-of-range MSE that misrepresents calibration
+  quality. Includes calibration-applying recipe pointer.
+- **F-metrics-3** (#76) — `expected_calibration_error` docstring
+  uniform-scores note. Added explicit Notes subsection documenting
+  that constant `y_score` returns 0.0 (per-bin formula trivially
+  satisfied) but is semantically misleading — uninformative scorers
+  look "perfectly calibrated" despite zero discriminative power.
+  Callers should filter constant inputs before ECE.
+- **F-metrics-4** (#76) — `brier_score` docstring single-class
+  edge-case explicit. Added Notes subsection with closed-form
+  expressions for all-zeros (`BS = mean(p²)`) and all-ones
+  (`BS = mean((1-p)²)`) cases. Explicit confirmation that
+  per-slice degenerate-class evaluation is supported (unlike
+  PR-AUC / ROC-AUC).
 ## [1.0.1] — 2026-05-25 — audit_citation_alignment + RC4 docs polish
 First v1.x patch release. Ships the `audit_citation_alignment` validator

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: eval-toolkit
-Version: 1.0.1
+Version: 1.0.2
 Summary: Reusable evaluation contracts for binary classification: metrics, bootstrap CIs, calibration, artifacts, and evidence gates.
 Project-URL: Homepage, https://github.com/brandon-behring/eval-toolkit
 Project-URL: Documentation, https://brandon-behring.github.io/eval-toolkit/
@@ -115,7 +115,8 @@ format changes.
 ├─ Tier 2 ─ Protocol-based orchestration ────────────────┤
 │  Scorer / SliceAwareScorer / LeakageCheck / Splitter   │
 │  ThresholdSelector / DatasetLoader / MetricSpec        │
-│  MetaLearner / Probe / TextTransform (9 strict)        │
+│  MetaLearner / Probe / TextTransform /                 │
+│  SimilarityStrategy (10 strict)                        │
 │  Versioned (opt-in: per-object versions in manifest)   │
 ├─ Tier 1 ─ Functional core ─────────────────────────────┤
 │  pr_auc / roc_auc / ECE variants / Brier / bootstrap_ci│

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/README.md RENAMED Viewed

@@ -32,7 +32,8 @@ format changes.
 ├─ Tier 2 ─ Protocol-based orchestration ────────────────┤
 │  Scorer / SliceAwareScorer / LeakageCheck / Splitter   │
 │  ThresholdSelector / DatasetLoader / MetricSpec        │
-│  MetaLearner / Probe / TextTransform (9 strict)        │
+│  MetaLearner / Probe / TextTransform /                 │
+│  SimilarityStrategy (10 strict)                        │
 │  Versioned (opt-in: per-object versions in manifest)   │
 ├─ Tier 1 ─ Functional core ─────────────────────────────┤
 │  pr_auc / roc_auc / ECE variants / Brier / bootstrap_ci│

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/_version.py RENAMED Viewed

@@ -2,4 +2,4 @@
 __all__ = ["__version__"]
-__version__ = "1.0.1"
+__version__ = "1.0.2"

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/metrics.py RENAMED Viewed

@@ -792,6 +792,20 @@ def expected_calibration_error(
     empirical positive rate in the bin, and :math:`\\mathrm{conf}` is the
     mean predicted score.
+    **Uniform / uninformative scores** (F-metrics-3 v1.0.2 clarity pass):
+    when ``y_score`` is constant (e.g., ``[0.5] * n`` — an uninformative
+    detector), this function returns ``0.0`` regardless of the true label
+    distribution. That's technically correct per the formula —
+    :math:`|\\mathrm{acc}(B_m) - \\mathrm{conf}(B_m)|` measures bin-level
+    calibration, and a single occupied bin with ``conf = base rate``
+    achieves perfect calibration locally. But it is semantically
+    misleading: an uninformative scorer looks "perfectly calibrated"
+    even though it has zero discriminative power. **Callers should
+    detect and filter uninformative inputs before passing to ECE** —
+    e.g., reject when ``np.unique(y_score).size == 1`` or when the
+    score variance is below a domain-specific threshold. Use
+    :func:`brier_score` or :func:`pr_auc` for resolution-aware metrics.
     References
     ----------
     .. [1] DeGroot, M. H. & Fienberg, S. E. "The comparison and evaluation of
@@ -1240,6 +1254,30 @@ def brier_score(
     -----
     .. math:: \mathrm{BS} = \frac{1}{n} \sum_i (p_i - y_i)^2
+    **Input domain** (F-metrics-1 v1.0.2 clarity pass): ``y_true`` must
+    be binary labels in ``{0, 1}`` (other label values raise
+    ``ValueError``). ``y_score`` must be calibrated probabilities in
+    ``[0, 1]`` — raw logits or unbounded ranking scores will pass the
+    finiteness check but produce an out-of-range MSE that misrepresents
+    calibration quality. If your scorer produces logits, apply
+    sigmoid / softmax / a fitted calibrator (see
+    :mod:`eval_toolkit.calibration`) before passing to ``brier_score``.
+    **Single-class behavior** (F-metrics-4 v1.0.2 clarity pass): unlike
+    PR-AUC / ROC-AUC, ``brier_score`` is well-defined when ``y_true``
+    is all-zeros or all-ones — it degenerates to the MSE around the
+    constant class label. Specifically:
+    - All-zeros: :math:`\mathrm{BS} = \frac{1}{n} \sum_i p_i^2` —
+      forecasting any positive probability incurs squared-error loss.
+    - All-ones: :math:`\mathrm{BS} = \frac{1}{n} \sum_i (1 - p_i)^2`
+      — forecasting low probability incurs squared-error loss.
+    This is the deliberate Brier-as-strict-proper-scoring-rule behavior
+    (Brier 1950). Per-slice degenerate-class evaluation is supported
+    via the ``empty_strategy`` parameter for ``n=0`` only; non-empty
+    single-class slices score normally.
     See Also
     --------
     eval_toolkit.metrics.brier_decomposition :

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/golden/public_api/snapshot.json RENAMED Viewed

@@ -1373,7 +1373,7 @@
       "doc_first_line": "str(object='') -> str",
       "kind": "value",
       "type": "str",
-      "value": "'1.0.1'"
+      "value": "'1.0.2'"
     },
     "apply_operating_points": {
       "doc_first_line": "Apply fitted thresholds to a mixed-class or single-class target slice.",

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_harness_folded.py RENAMED Viewed

@@ -162,6 +162,29 @@ def test_evaluate_folded_reseed_splitter_varies_partitions() -> None:
     assert "seed=1/fold=0" in fold_ids
     assert "seed=2/fold=0" in fold_ids
+    # R10-RC3 v1.0.2 hardening (#76): the previous assertions covered
+    # COUNT + key existence but did NOT verify the actual partition
+    # indices differ across seeds — a regression that silently reused
+    # the splitter (R8-C1 pre-fix behavior) could still pass. Directly
+    # verify the reseed_splitter callback yields different partitions
+    # by replaying it against the splitter.
+    splitter = StratifiedKFoldSplitter(k=2, seed=42)
+    splits_seed_1 = list(dataclasses.replace(splitter, seed=1).iter_folds(parent, groups=None))
+    splits_seed_2 = list(dataclasses.replace(splitter, seed=2).iter_folds(parent, groups=None))
+    # _slice_subset resets the child df index to [0..n-1], so compare
+    # the underlying text feature values instead (stable across the
+    # reset_index drop). Each child slice's `text` column carries the
+    # original row labels.
+    fold_0_test_texts_seed_1 = set(splits_seed_1[0]["test"].df["text"].tolist())
+    fold_0_test_texts_seed_2 = set(splits_seed_2[0]["test"].df["text"].tolist())
+    # Different seeds → different fold-0 test partitions (the whole
+    # point of reseed_splitter).
+    assert fold_0_test_texts_seed_1 != fold_0_test_texts_seed_2, (
+        "reseed_splitter callback failed to vary partitions: "
+        f"seed=1 fold=0 texts={sorted(fold_0_test_texts_seed_1)[:5]}... "
+        f"seed=2 fold=0 texts={sorted(fold_0_test_texts_seed_2)[:5]}..."
+    )
 @pytest.mark.unit
 def test_evaluate_folded_single_seed_no_deprecation_warning() -> None:

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/.gitignore RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/LICENSE RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/STYLE.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/docs/archive/README.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/docs/research/README.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/docs/research/datasets/README.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/docs/research/papers/data-integrity/README.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/docs/research/papers/eval-ecosystem/README.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/docs/research/papers/inference/README.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/docs/research/papers/prompt-injection/README.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/docs/source/adr/README.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/docs/source/methodology/README.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/pyproject.toml RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/__init__.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/__main__.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/_deprecated.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/_parallel.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/_rng.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/_sweep.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/adversarial.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/analysis.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/artifacts.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/audit_citation_alignment.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/bootstrap.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/calibration.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/claims.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/config.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/docs.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/embeddings.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/evidence.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/harness.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/leakage.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/loaders.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/losses.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/manifest.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/metric_specs.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/operating_points.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/paths.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/plotting.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/preprocessing.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/probes.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/protocols.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/provenance.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/py.typed RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/schemas/manifest.v1.json RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/schemas/manifest.v2.json RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/schemas/manifest.v3.json RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/schemas/ood_manifest.v1.json RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/schemas/results.v1.json RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/schemas/results_full.v1.json RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/scorecards.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/seeds.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/splits.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/stacking.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/text_dedup.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/src/eval_toolkit/thresholds.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/baseline/test_plotting_visual/plot_bootstrap_distribution.png RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/baseline/test_plotting_visual/plot_confusion_matrix_grid.png RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/baseline/test_plotting_visual/plot_lift_ci.png RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/baseline/test_plotting_visual/plot_metric_bars.png RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/baseline/test_plotting_visual/plot_pareto_frontier.png RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/baseline/test_plotting_visual/plot_pr_curve.png RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/baseline/test_plotting_visual/plot_reliability_diagram.png RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/baseline/test_plotting_visual/plot_roc_curve.png RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/baseline/test_plotting_visual/plot_score_histograms.png RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/baseline/test_plotting_visual/plot_slice_metric_heatmap.png RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/benchmarks/__init__.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/benchmarks/test_kernel_benchmarks.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/conftest.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/golden/bootstrap_ci/cases.json RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/golden/data/dedup_holdout.jsonl RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/golden/data/dedup_holdout_expected.json RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/golden/data/dedup_holdout_provenance.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/golden/docs/expected.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/golden/docs/input.md RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/golden/docs/metrics.json RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/golden/test_dedup_holdout_calibration.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/strategies.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_adversarial.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_analysis.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_artifacts.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_audit_citation_alignment.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_block_bootstrap_on_folds.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_bootstrap_calibration_mc.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_bootstrap_edge_cases.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_bootstrap_golden.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_bootstrap_njobs.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_bootstrap_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_bootstrap_research_grounded.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_bootstrap_unit.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_calibration_binary_adapters.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_calibration_bootstrap_chain.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_calibration_determinism.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_calibration_optimization_failures.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_calibration_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_calibration_research_grounded.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_calibration_unit.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_claims.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_claims_coverage.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_claims_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_cli.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_config.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_coverage_bootstrap.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_coverage_calibration.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_coverage_harness.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_coverage_metrics.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_coverage_plotting.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_croissant_e2e.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_dedup_split_leakage_chain.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_deprecated_scalars_shim.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_deprecations.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_docs_golden.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_docs_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_embeddings.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_evidence_validators.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_harness_edge_cases.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_harness_fault_injection.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_harness_internals.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_harness_metric_options.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_harness_parallelism.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_harness_smoke.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_import_boundaries.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_is_metric_defined_for_slice.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_lazy_extras_messages.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_leakage.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_leakage_error_paths.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_leakage_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_loaders.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_loaders_coverage.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_loaders_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_logging.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_losses.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_manifest.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_manifest_contamination_round_trip.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_manifest_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_manifest_validation.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_metrics_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_metrics_stratified_subsets.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_metrics_unit.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_misc_coverage.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_numeric_edge_cases.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_ood_loader.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_operating_points.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_operating_points_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_parallel.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_paths.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_pipeline_e2e.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_plotting_edge.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_plotting_smoke.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_plotting_visual.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_preprocessing.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_probes.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_protocol_conformance.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_provenance.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_public_api.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_recall_at_fpr.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_reference_equivalence.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_reproducibility_integration.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_rng.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_schemas.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_scorecard.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_seeds.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_splits.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_splits_leakage_integration.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_splits_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_stacking.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_sweep.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_text_dedup.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_text_dedup_coverage.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_text_dedup_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_text_dedup_strategies.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_thresholds.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_thresholds_constant_score.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_thresholds_coverage.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_thresholds_props.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_thresholds_research_grounded.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_tokenization_leakage_check.py RENAMED Viewed

File without changes

{eval_toolkit-1.0.1 → eval_toolkit-1.0.2}/tests/test_v09_contracts.py RENAMED Viewed

File without changes

eval-toolkit 1.0.1__tar.gz → 1.0.2__tar.gz

eval-toolkit 1.0.1tar.gz → 1.0.2tar.gz