PyPI - dataeval - Versions diffs - 0.86.5__py3-none-any.whl → 0.86.7__py3-none-any.whl - Mend

dataeval 0.86.5py3-none-any.whl → 0.86.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

dataeval/__init__.py CHANGED Viewed

@@ -8,7 +8,7 @@ shifts that impact performance of deployed models.
 from __future__ import annotations
 __all__ = ["config", "detectors", "log", "metrics", "typing", "utils", "workflows"]
-__version__ = "0.86.5"
+__version__ = "0.86.7"
 import logging

dataeval/data/_metadata.py CHANGED Viewed

@@ -234,14 +234,17 @@ class Metadata:
             if is_od_target := isinstance(target, ObjectDetectionTarget):
                 target_labels = as_numpy(target.labels)
                 target_len = len(target_labels)
-                labels.extend(target_labels.tolist())
-                bboxes.extend(as_numpy(target.boxes).tolist())
-                scores.extend(as_numpy(target.scores).tolist())
-                srcidx.extend([i] * target_len)
+                if target_len:
+                    labels.extend(target_labels.tolist())
+                    bboxes.extend(as_numpy(target.boxes).tolist())
+                    scores.extend(as_numpy(target.scores).tolist())
+                    srcidx.extend([i] * target_len)
             elif isinstance(target, Array):
-                target_len = 1
-                labels.append(int(np.argmax(as_numpy(target))))
-                scores.append(target)
+                if len(target):
+                    target_len = 1
+                    labels.append(int(np.argmax(as_numpy(target))))
+                    scores.append(target)
+                    srcidx.append(i)
             else:
                 raise TypeError("Encountered unsupported target type in dataset")
@@ -252,18 +255,18 @@ class Metadata:
         labels = as_numpy(labels).astype(np.intp)
         scores = as_numpy(scores).astype(np.float32)
         bboxes = as_numpy(bboxes).astype(np.float32) if is_od else None
-        srcidx = as_numpy(srcidx).astype(np.intp) if is_od else None
+        srcidx = as_numpy(srcidx).astype(np.intp)
         index2label = self._dataset.metadata.get("index2label", {i: str(i) for i in np.unique(labels)})
-        targets_per_image = None if srcidx is None else np.unique(srcidx, return_counts=True)[1].tolist()
+        targets_per_image = np.bincount(srcidx, minlength=len(self._dataset)).tolist() if is_od else None
         merged = merge(raw, return_dropped=True, ignore_lists=False, targets_per_image=targets_per_image)
         reserved = ["image_index", "class_label", "score", "box"]
         factor_dict = {f"metadata_{k}" if k in reserved else k: v for k, v in merged[0].items() if k != "_image_index"}
         target_dict = {
-            "image_index": srcidx if srcidx is not None else np.arange(len(labels)),
+            "image_index": srcidx,
             "class_label": labels,
             "score": scores,
             "box": bboxes if bboxes is not None else [None] * len(labels),

dataeval/detectors/linters/outliers.py CHANGED Viewed

@@ -18,57 +18,59 @@ from dataeval.outputs._stats import BASE_ATTRS
 from dataeval.typing import ArrayLike, Dataset
+def _get_zscore_mask(values: NDArray[np.float64], threshold: float | None) -> NDArray[np.bool_] | None:
+    threshold = threshold if threshold is not None else 3.0
+    std_val = np.nanstd(values)
+    if std_val > EPSILON:
+        mean_val = np.nanmean(values)
+        abs_diff = np.abs(values - mean_val)
+        return (abs_diff / std_val) > threshold
+    return None
+def _get_modzscore_mask(values: NDArray[np.float64], threshold: float | None) -> NDArray[np.bool_] | None:
+    threshold = threshold if threshold is not None else 3.5
+    median_val = np.nanmedian(values)
+    abs_diff = np.abs(values - median_val)
+    m_abs_diff = np.nanmedian(abs_diff)
+    m_abs_diff = np.nanmean(abs_diff) if m_abs_diff <= EPSILON else m_abs_diff
+    if m_abs_diff > EPSILON:
+        mod_z_score = 0.6745 * abs_diff / m_abs_diff
+        return mod_z_score > threshold
+    return None
+def _get_iqr_mask(values: NDArray[np.float64], threshold: float | None) -> NDArray[np.bool_] | None:
+    threshold = threshold if threshold is not None else 1.5
+    qrt = np.nanpercentile(values, q=(25, 75), method="midpoint")
+    iqr_val = qrt[1] - qrt[0]
+    if iqr_val > EPSILON:
+        iqr_threshold = iqr_val * threshold
+        return (values < (qrt[0] - iqr_threshold)) | (values > (qrt[1] + iqr_threshold))
+    return None
 def _get_outlier_mask(
     values: NDArray[Any], method: Literal["zscore", "modzscore", "iqr"], threshold: float | None
 ) -> NDArray[np.bool_]:
     if len(values) == 0:
         return np.array([], dtype=bool)
-    values = values.astype(np.float64)
-    valid_mask = ~np.isnan(values)
-    outliers = np.full(values.shape, False, dtype=bool)
-    if not np.any(valid_mask):
-        return outliers
-    if method == "zscore":
-        threshold = threshold if threshold is not None else 3.0
-        std_val = np.nanstd(values)
-        if std_val > EPSILON:
-            mean_val = np.nanmean(values)
-            abs_diff = np.abs(values - mean_val)
-            outliers = (abs_diff / std_val) > threshold
+    nan_mask = np.isnan(values)
+    if np.all(nan_mask):
+        outliers = None
+    elif method == "zscore":
+        outliers = _get_zscore_mask(values.astype(np.float64), threshold)
     elif method == "modzscore":
-        threshold = threshold if threshold is not None else 3.5
-        median_val = np.nanmedian(values)
-        abs_diff = np.abs(values - median_val)
-        m_abs_diff = np.nanmedian(abs_diff)
-        m_abs_diff = np.nanmean(abs_diff) if m_abs_diff <= EPSILON else m_abs_diff
-        if m_abs_diff > EPSILON:
-            mod_z_score = 0.6745 * abs_diff / m_abs_diff
-            outliers = mod_z_score > threshold
+        outliers = _get_modzscore_mask(values.astype(np.float64), threshold)
     elif method == "iqr":
-        threshold = threshold if threshold is not None else 1.5
-        qrt = np.nanpercentile(values, q=(25, 75), method="midpoint")
-        iqr_val = qrt[1] - qrt[0]
-        if iqr_val > EPSILON:
-            iqr_threshold = iqr_val * threshold
-            outliers = (values < (qrt[0] - iqr_threshold)) | (values > (qrt[1] + iqr_threshold))
+        outliers = _get_iqr_mask(values.astype(np.float64), threshold)
     else:
         raise ValueError("Outlier method must be 'zscore' 'modzscore' or 'iqr'.")
-    outliers[~valid_mask] = False
-    return outliers
+    # If outliers were found, return the mask with NaN values set to False, otherwise return all False
+    return outliers & ~nan_mask if outliers is not None else np.full(values.shape, False, dtype=bool)
 class Outliers:

dataeval/metrics/stats/_dimensionstats.py CHANGED Viewed

@@ -6,7 +6,6 @@ from typing import Any, Callable
 import numpy as np
-from dataeval.config import EPSILON
 from dataeval.metrics.stats._base import StatsProcessor, run_stats
 from dataeval.outputs import DimensionStatsOutput
 from dataeval.outputs._base import set_metadata
@@ -23,8 +22,8 @@ class DimensionStatsProcessor(StatsProcessor[DimensionStatsOutput]):
         "height": lambda x: x.box.height,
         "channels": lambda x: x.shape[-3],
         "size": lambda x: x.box.width * x.box.height,
-        "aspect_ratio": lambda x: x.box.width / (x.box.height + EPSILON),
-        "depth": lambda x: get_bitdepth(x.image).depth,
+        "aspect_ratio": lambda x: 0.0 if x.box.height == 0 else x.box.width / x.box.height,
+        "depth": lambda x: get_bitdepth(x.raw).depth,
         "center": lambda x: np.asarray([(x.box.x0 + x.box.x1) / 2, (x.box.y0 + x.box.y1) / 2]),
         "distance_center": lambda x: np.sqrt(
             np.square(((x.box.x0 + x.box.x1) / 2) - (x.raw.shape[-1] / 2))

{dataeval-0.86.5.dist-info → dataeval-0.86.7.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: dataeval
-Version: 0.86.5
+Version: 0.86.7
 Summary: DataEval provides a simple interface to characterize image data and its impact on model performance across classification and object-detection tasks
 Home-page: https://dataeval.ai/
 License: MIT

{dataeval-0.86.5.dist-info → dataeval-0.86.7.dist-info}/RECORD RENAMED Viewed

@@ -1,10 +1,10 @@
-dataeval/__init__.py,sha256=5qOVdEDEZt5O--VufuRJXGEByzQC7pJWZluFGzPuNOc,1636
+dataeval/__init__.py,sha256=P6WvVjHlE2nH57bXBR4A9ez6R32OQGm9bshYrxRKwFw,1636
 dataeval/_log.py,sha256=C7AGkIRzymvYJ0LQXtnShiy3i5Xrp8T58JzIHHguk_Q,365
 dataeval/config.py,sha256=bHa8np4FCtLLv8_xlfdDC4lb1InJ_kT0vXDO5P42rvk,4082
 dataeval/data/__init__.py,sha256=wzQ6uUFLNB3VJR0a2QnRBYwEmwXT93q0WpHu7FmFW1E,486
 dataeval/data/_embeddings.py,sha256=PFjpdV9bfusCB4taTIYSzx1hP8nJb_KCkZTN8kMw-Hs,12885
 dataeval/data/_images.py,sha256=Rc_59CuU4zfN7Xm7an1XUx8ZghQg6a56VJWMZD9edRw,2654
-dataeval/data/_metadata.py,sha256=OTda9V7DA5Ejxip_NR16LCK2C8HMtpjWHHiFoW3LrLY,14364
+dataeval/data/_metadata.py,sha256=3aixstlgcAZXC0qNjwDlxjscC3IX1xjPt_FK0liRqoo,14423
 dataeval/data/_selection.py,sha256=r06xeiyK8nTWPLyItkoPQRWZI1i6LATSue_cuEbCdc4,4463
 dataeval/data/_split.py,sha256=nQABR05vxil2Qx7-uX4Fm0_DWpibskBGDJOYj_b1u3I,16737
 dataeval/data/selections/__init__.py,sha256=2m8ZB53wXzqLcqmc6p5atO6graB6ZyiRSNJFxf11X_g,613
@@ -32,7 +32,7 @@ dataeval/detectors/drift/_uncertainty.py,sha256=BHlykJ-r7TGLJxdPfoazXnoAJ1qVDzbk
 dataeval/detectors/drift/updates.py,sha256=L1PnrPlIE1x6ujCc5mCwjcAZwadVTn-Zjb6MnTDvzJQ,2251
 dataeval/detectors/linters/__init__.py,sha256=xn2zPwUcmsuf-Jd9uw6AVI11C9z1b1Y9fYtuFnXenZ0,404
 dataeval/detectors/linters/duplicates.py,sha256=X5WSEvI_BHkLoXjkaHK6wTnSkx4IjpO_exMRjSlhc70,4963
-dataeval/detectors/linters/outliers.py,sha256=WO686jVbGbtDjO-8CuYVLxpeUGv8MpIK9QjADlTdd40,9596
+dataeval/detectors/linters/outliers.py,sha256=GaM9n8yPgBPzVOL_bxJCj0eCwobEEP4JHKHD9liRdlw,10130
 dataeval/detectors/ood/__init__.py,sha256=juCYBDs7CQEAtMhnEpPqF6uTrOIH9kTBSuQ_GRw6a8o,283
 dataeval/detectors/ood/ae.py,sha256=fTrUfFxv6xUqzKpwMC8rW3JrizA16M_bgzqLuBKMrS0,2944
 dataeval/detectors/ood/base.py,sha256=9b-Ljznf0lB1SXF4F_Aj3eJ4Y3ijGEDPMjucUsWOGJM,3051
@@ -56,7 +56,7 @@ dataeval/metrics/estimators/_uap.py,sha256=BULEBbJ9BQ1IcTeZf0x7iI60QHAWCccBOM97F
 dataeval/metrics/stats/__init__.py,sha256=6tA_9nbbM5ObJ6cds8Y1VBtTQiTOxrpGQSFLu_lWGGA,1098
 dataeval/metrics/stats/_base.py,sha256=R-hxoEPLreZcxYxBfyjbKfdoGMMTPiqJ5g2zSO-1UYM,12541
 dataeval/metrics/stats/_boxratiostats.py,sha256=ROZrlqgbowkGfCR5PJ5TL7Og40iMOdUqJnsCtaz_Xek,6450
-dataeval/metrics/stats/_dimensionstats.py,sha256=EVO-BlxrZl8qrP09lwPbyWdrG1ZeDtgj4LiswDwEZ1I,2896
+dataeval/metrics/stats/_dimensionstats.py,sha256=s2Juca8GG501nZd2SWL_YtXWkTfxUrUIAl53PO3_VeA,2876
 dataeval/metrics/stats/_hashstats.py,sha256=qa1CYRgOebkxqkALfffaPM-kJ074ZbyfpWbfOfuObSs,4758
 dataeval/metrics/stats/_imagestats.py,sha256=gUPNgN5Zwzdr7WnSwbve1NXNsyxd5dy3cSnlR_7guCg,3007
 dataeval/metrics/stats/_labelstats.py,sha256=_dXt3p8_-SHEtHvJWbL0rnQvO2g30zxX42mG2LGJepU,3195
@@ -107,7 +107,7 @@ dataeval/utils/torch/models.py,sha256=1idpXyjrYcCBSsbxxRUOto8xr4MJNjDEqQHiIXVU5Z
 dataeval/utils/torch/trainer.py,sha256=Oc2lK13uPGhmLYbmAqlPWyKxgG4YJFlnSXCqFHUZbdA,5528
 dataeval/workflows/__init__.py,sha256=ou8y0KO-d6W5lgmcyLjKlf-J_ckP3vilW7wHkgiDlZ4,255
 dataeval/workflows/sufficiency.py,sha256=j-R8dg4XE6a66p_oTXG2GNzgg3vGk85CTblxhFXaxog,8513
-dataeval-0.86.5.dist-info/LICENSE.txt,sha256=uAooygKWvX6NbU9Ran9oG2msttoG8aeTeHSTe5JeCnY,1061
-dataeval-0.86.5.dist-info/METADATA,sha256=qx7aNDgzyAfRRKWjDXkfXojBdsBFnjMgwTVl0JsLbbw,5353
-dataeval-0.86.5.dist-info/WHEEL,sha256=Nq82e9rUAnEjt98J6MlVmMCZb-t9cYE2Ir1kpBmnWfs,88
-dataeval-0.86.5.dist-info/RECORD,,
+dataeval-0.86.7.dist-info/LICENSE.txt,sha256=uAooygKWvX6NbU9Ran9oG2msttoG8aeTeHSTe5JeCnY,1061
+dataeval-0.86.7.dist-info/METADATA,sha256=7FTgPB4Yj2zF7z2B6IIRe9WFc9VCBqrcFEIf5ByVHdw,5353
+dataeval-0.86.7.dist-info/WHEEL,sha256=Nq82e9rUAnEjt98J6MlVmMCZb-t9cYE2Ir1kpBmnWfs,88
+dataeval-0.86.7.dist-info/RECORD,,

{dataeval-0.86.5.dist-info → dataeval-0.86.7.dist-info}/LICENSE.txt RENAMED Viewed

File without changes

{dataeval-0.86.5.dist-info → dataeval-0.86.7.dist-info}/WHEEL RENAMED Viewed

File without changes

dataeval 0.86.5__py3-none-any.whl → 0.86.7__py3-none-any.whl

dataeval 0.86.5py3-none-any.whl → 0.86.7py3-none-any.whl