PyPI - dataeval - Versions diffs - 0.86.9__py3-none-any.whl → 0.87.0__py3-none-any.whl - Mend

dataeval 0.86.9py3-none-any.whl → 0.87.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (41) hide show

dataeval/__init__.py +1 -1
dataeval/_version.py +2 -2
dataeval/config.py +4 -19
dataeval/data/_metadata.py +56 -27
dataeval/data/_split.py +1 -1
dataeval/data/selections/_classbalance.py +4 -3
dataeval/data/selections/_classfilter.py +5 -5
dataeval/data/selections/_indices.py +2 -2
dataeval/data/selections/_prioritize.py +249 -29
dataeval/data/selections/_reverse.py +1 -1
dataeval/data/selections/_shuffle.py +2 -2
dataeval/detectors/ood/__init__.py +2 -1
dataeval/detectors/ood/base.py +38 -1
dataeval/detectors/ood/knn.py +95 -0
dataeval/metrics/bias/_balance.py +28 -21
dataeval/metrics/bias/_diversity.py +4 -4
dataeval/metrics/bias/_parity.py +2 -2
dataeval/metrics/stats/_hashstats.py +19 -2
dataeval/outputs/_workflows.py +20 -7
dataeval/typing.py +14 -2
dataeval/utils/__init__.py +2 -2
dataeval/utils/_bin.py +7 -6
dataeval/utils/data/__init__.py +2 -0
dataeval/utils/data/_dataset.py +13 -6
dataeval/utils/data/_validate.py +169 -0
{dataeval-0.86.9.dist-info → dataeval-0.87.0.dist-info}/METADATA +5 -17
{dataeval-0.86.9.dist-info → dataeval-0.87.0.dist-info}/RECORD +29 -39
dataeval/utils/datasets/__init__.py +0 -21
dataeval/utils/datasets/_antiuav.py +0 -189
dataeval/utils/datasets/_base.py +0 -266
dataeval/utils/datasets/_cifar10.py +0 -201
dataeval/utils/datasets/_fileio.py +0 -142
dataeval/utils/datasets/_milco.py +0 -197
dataeval/utils/datasets/_mixin.py +0 -54
dataeval/utils/datasets/_mnist.py +0 -202
dataeval/utils/datasets/_seadrone.py +0 -512
dataeval/utils/datasets/_ships.py +0 -144
dataeval/utils/datasets/_types.py +0 -48
dataeval/utils/datasets/_voc.py +0 -583
{dataeval-0.86.9.dist-info → dataeval-0.87.0.dist-info}/WHEEL +0 -0
/dataeval-0.86.9.dist-info/licenses/LICENSE.txt → /dataeval-0.87.0.dist-info/licenses/LICENSE +0 -0

dataeval/metrics/bias/_balance.py CHANGED Viewed

@@ -73,9 +73,9 @@ def balance(
     Return intra/interfactor balance (mutual information)
     >>> bal.factors
-    array([[1.   , 0.017, 0.015],
-           [0.017, 0.445, 0.245],
-           [0.015, 0.245, 1.063]])
+    array([[1.   , 0.   , 0.015],
+           [0.   , 0.08 , 0.011],
+           [0.015, 0.011, 1.063]])
     Return classwise balance (mutual information) of factors with individual class_labels
@@ -95,32 +95,39 @@ def balance(
     num_neighbors = _validate_num_neighbors(num_neighbors)
-    data = metadata.discretized_data
     factor_types = {"class_label": "categorical"} | {k: v.factor_type for k, v in metadata.factor_info.items()}
     is_discrete = [factor_type != "continuous" for factor_type in factor_types.values()]
     num_factors = len(factor_types)
     class_labels = metadata.class_labels
     mi = np.full((num_factors, num_factors), np.nan, dtype=np.float32)
-    data = np.hstack((class_labels[:, np.newaxis], data))
+    # Use numeric data for MI
+    data = np.hstack((class_labels[:, np.newaxis], metadata.digitized_data))
+    # Present discrete features composed of distinct values as continuous for `mutual_info_classif`
+    for i, factor_type in enumerate(factor_types):
+        if len(data) == len(np.unique(data[:, i])):
+            is_discrete[i] = False
+            factor_types[factor_type] = "continuous"
+    mutual_info_fn_map = {
+        "categorical": mutual_info_classif,
+        "discrete": mutual_info_classif,
+        "continuous": mutual_info_regression,
+    }
     for idx, factor_type in enumerate(factor_types.values()):
-        if factor_type != "continuous":
-            mi[idx, :] = mutual_info_classif(
-                data,
-                data[:, idx],
-                discrete_features=is_discrete,  # type: ignore - sklearn function not typed
-                n_neighbors=num_neighbors,
-                random_state=get_seed(),
-            )
-        else:
-            mi[idx, :] = mutual_info_regression(
-                data,
-                data[:, idx],
-                discrete_features=is_discrete,  # type: ignore - sklearn function not typed
-                n_neighbors=num_neighbors,
-                random_state=get_seed(),
-            )
+        mi[idx, :] = mutual_info_fn_map[factor_type](
+            data,
+            data[:, idx],
+            discrete_features=is_discrete,
+            n_neighbors=num_neighbors,
+            random_state=get_seed(),
+        )
+    # Use binned data for classwise MI
+    data = np.hstack((class_labels[:, np.newaxis], metadata.binned_data))
     # Normalization via entropy
     bin_cnts = get_counts(data)

dataeval/metrics/bias/_diversity.py CHANGED Viewed

@@ -162,12 +162,12 @@ def diversity(
         raise ValueError("No factors found in provided metadata.")
     diversity_fn = get_method(_DIVERSITY_FN_MAP, method)
-    discretized_data = metadata.discretized_data
+    binned_data = metadata.binned_data
     factor_names = metadata.factor_names
     class_lbl = metadata.class_labels
-    class_labels_with_discretized_data = np.hstack((class_lbl[:, np.newaxis], discretized_data))
-    cnts = get_counts(class_labels_with_discretized_data)
+    class_labels_with_binned_data = np.hstack((class_lbl[:, np.newaxis], binned_data))
+    cnts = get_counts(class_labels_with_binned_data)
     num_bins = np.bincount(np.nonzero(cnts)[1])
     diversity_index = diversity_fn(cnts, num_bins)
@@ -176,7 +176,7 @@ def diversity(
     classwise_div = np.full((len(u_classes), num_factors), np.nan)
     for idx, cls in enumerate(u_classes):
         subset_mask = class_lbl == cls
-        cls_cnts = get_counts(discretized_data[subset_mask], min_num_bins=cnts.shape[0])
+        cls_cnts = get_counts(binned_data[subset_mask], min_num_bins=cnts.shape[0])
         classwise_div[idx, :] = diversity_fn(cls_cnts, num_bins[1:])
     return DiversityOutput(diversity_index, classwise_div, factor_names, metadata.class_names)

dataeval/metrics/bias/_parity.py CHANGED Viewed

@@ -245,10 +245,10 @@ def parity(metadata: Metadata) -> ParityOutput:
     if not metadata.factor_names:
         raise ValueError("No factors found in provided metadata.")
-    chi_scores = np.zeros(metadata.discretized_data.shape[1])
+    chi_scores = np.zeros(metadata.binned_data.shape[1])
     p_values = np.zeros_like(chi_scores)
     insufficient_data: defaultdict[str, defaultdict[int, dict[str, int]]] = defaultdict(lambda: defaultdict(dict))
-    for i, col_data in enumerate(metadata.discretized_data.T):
+    for i, col_data in enumerate(metadata.binned_data.T):
         # Builds a contingency matrix where entry at index (r,c) represents
         # the frequency of current_factor_name achieving value unique_factor_values[r]
         # at a data point with class c.

dataeval/metrics/stats/_hashstats.py CHANGED Viewed

@@ -8,8 +8,9 @@ from typing import Any, Callable
 import numpy as np
 import xxhash as xxh
-from PIL import Image
+from numpy.typing import NDArray
 from scipy.fftpack import dct
+from scipy.ndimage import zoom
 from dataeval.metrics.stats._base import StatsProcessor, run_stats
 from dataeval.outputs import HashStatsOutput
@@ -18,10 +19,26 @@ from dataeval.typing import ArrayLike, Dataset
 from dataeval.utils._array import as_numpy
 from dataeval.utils._image import normalize_image_shape, rescale
+try:
+    from PIL import Image
+except ImportError:
+    Image = None
 HASH_SIZE = 8
 MAX_FACTOR = 4
+def _resize(image: NDArray[np.uint8], resize_dim: int, use_pil: bool = True) -> NDArray[np.uint8]:
+    """Resizes a grayscale (HxW) 8-bit image using PIL or scipy.ndimage.zoom."""
+    # Use PIL if available, otherwise resize and resample with scipy.ndimage.zoom
+    if use_pil and Image is not None:
+        return np.array(Image.fromarray(image).resize((resize_dim, resize_dim), Image.Resampling.LANCZOS))
+    zoom_factors = (resize_dim / image.shape[0], resize_dim / image.shape[1])
+    return np.clip(zoom(image, zoom_factors, order=5, mode="reflect"), 0, 255, dtype=np.uint8)
 def pchash(image: ArrayLike) -> str:
     """
     Performs a perceptual hash on an image by resizing to a square NxN image
@@ -59,7 +76,7 @@ def pchash(image: ArrayLike) -> str:
     rescaled = rescale(normalized, 8).astype(np.uint8)
     # Resizes the image using the Lanczos algorithm to a square image
-    im = np.array(Image.fromarray(rescaled).resize((resize_dim, resize_dim), Image.Resampling.LANCZOS))
+    im = _resize(rescaled, resize_dim)
     # Performs discrete cosine transforms to compress the image information and takes the lowest frequency component
     transform = dct(dct(im.T).T)[:HASH_SIZE, :HASH_SIZE]

dataeval/outputs/_workflows.py CHANGED Viewed

@@ -92,7 +92,7 @@ def plot_measure(
     return fig
-def f_inv_out(y_i: NDArray[Any], x: NDArray[Any]) -> NDArray[np.uint64]:
+def f_inv_out(y_i: NDArray[Any], x: NDArray[Any]) -> NDArray[np.int64]:
     """
     Inverse function for f_out()
@@ -106,13 +106,27 @@ def f_inv_out(y_i: NDArray[Any], x: NDArray[Any]) -> NDArray[np.uint64]:
     Returns
     -------
     NDArray
-        Array of sample sizes
+        Sample size or -1 if unachievable for each data point
     """
-    n_i = ((y_i - x[2]) / x[0]) ** (-1 / x[1])
-    return np.asarray(n_i, dtype=np.uint64)
+    with np.errstate(invalid="ignore"):
+        n_i = ((y_i - x[2]) / x[0]) ** (-1 / x[1])
+    unachievable_targets = np.isnan(n_i) | np.any(n_i > np.iinfo(np.int64).max)
+    if any(unachievable_targets):
+        with np.printoptions(suppress=True):
+            warnings.warn(
+                "Number of samples could not be determined for target(s): "
+                f"""{
+                    np.array2string(
+                        1 - y_i[unachievable_targets], separator=", ", formatter={"float": lambda x: f"{x}"}
+                    )
+                }""",
+                UserWarning,
+            )
+        n_i[unachievable_targets] = -1
+    return np.asarray(n_i, dtype=np.int64)
-def inv_project_steps(params: NDArray[Any], targets: NDArray[Any]) -> NDArray[np.uint64]:
+def inv_project_steps(params: NDArray[Any], targets: NDArray[Any]) -> NDArray[np.int64]:
     """Inverse function for project_steps()
     Parameters
@@ -125,10 +139,9 @@ def inv_project_steps(params: NDArray[Any], targets: NDArray[Any]) -> NDArray[np
     Returns
     -------
     NDArray
-        Array of sample sizes, or 0 if overflow
+        Samples required or -1 if unachievable for each target value
     """
     steps = f_inv_out(1 - np.array(targets), params)
-    steps[np.isnan(steps)] = 0
     return np.ceil(steps)

dataeval/typing.py CHANGED Viewed

@@ -3,11 +3,12 @@ Common type protocols used for interoperability with DataEval.
 """
 __all__ = [
+    "AnnotatedDataset",
     "Array",
     "ArrayLike",
     "Dataset",
-    "AnnotatedDataset",
     "DatasetMetadata",
+    "DeviceLike",
     "ImageClassificationDatum",
     "ImageClassificationDataset",
     "ObjectDetectionTarget",
@@ -21,9 +22,10 @@ __all__ = [
 import sys
-from typing import Any, Generic, Iterator, Mapping, Protocol, TypedDict, TypeVar, runtime_checkable
+from typing import Any, Generic, Iterator, Mapping, Protocol, TypedDict, TypeVar, Union, runtime_checkable
 import numpy.typing
+import torch
 from typing_extensions import NotRequired, ReadOnly, Required
 if sys.version_info >= (3, 10):
@@ -42,6 +44,16 @@ See Also
 """
+DeviceLike: TypeAlias = Union[int, str, tuple[str, int], torch.device]
+"""
+Type alias for a `Union` representing types that specify a torch.device.
+See Also
+--------
+`torch.device <https://pytorch.org/docs/stable/tensor_attributes.html#torch.device>`_
+"""
 @runtime_checkable
 class Array(Protocol):
     """

dataeval/utils/__init__.py CHANGED Viewed

@@ -4,6 +4,6 @@ in setting up data and architectures that are guaranteed to work with applicable
 DataEval metrics.
 """
-__all__ = ["data", "datasets", "torch"]
+__all__ = ["data", "torch"]
-from . import data, datasets, torch
+from . import data, torch

dataeval/utils/_bin.py CHANGED Viewed

@@ -94,7 +94,7 @@ def bin_data(data: NDArray[Any], bin_method: str) -> NDArray[np.int_]:
     return np.digitize(data, bin_edges)
-def is_continuous(data: NDArray[np.number[Any]], image_indices: NDArray[np.number[Any]]) -> bool:
+def is_continuous(data: NDArray[np.number[Any]], image_indices: NDArray[np.number[Any]] | None = None) -> bool:
     """
     Determines whether the data is continuous or discrete using the Wasserstein distance.
@@ -113,11 +113,12 @@ def is_continuous(data: NDArray[np.number[Any]], image_indices: NDArray[np.numbe
     measured from a uniform distribution is greater or less than 0.054, respectively.
     """
     # Check if the metadata is image specific
-    _, data_indices_unsorted = np.unique(data, return_index=True)
-    if data_indices_unsorted.size == image_indices.size:
-        data_indices = np.sort(data_indices_unsorted)
-        if (data_indices == image_indices).all():
-            data = data[data_indices]
+    if image_indices is not None:
+        _, data_indices_unsorted = np.unique(data, return_index=True)
+        if data_indices_unsorted.size == image_indices.size:
+            data_indices = np.sort(data_indices_unsorted)
+            if (data_indices == image_indices).all():
+                data = data[data_indices]
     n_examples = len(data)

dataeval/utils/data/__init__.py CHANGED Viewed

@@ -2,10 +2,12 @@
 from dataeval.utils.data import collate, metadata
 from dataeval.utils.data._dataset import to_image_classification_dataset, to_object_detection_dataset
+from dataeval.utils.data._validate import validate_dataset
 __all__ = [
     "collate",
     "metadata",
     "to_image_classification_dataset",
     "to_object_detection_dataset",
+    "validate_dataset",
 ]

dataeval/utils/data/_dataset.py CHANGED Viewed

@@ -14,6 +14,10 @@ from dataeval.typing import (
 from dataeval.utils._array import as_numpy
+def _ensure_id(index: int, metadata: dict[str, Any]) -> dict[str, Any]:
+    return {"id": index, **metadata} if "id" not in metadata else metadata
 def _validate_data(
     datum_type: Literal["ic", "od"],
     images: Array | Sequence[Array],
@@ -128,16 +132,19 @@ class CustomImageClassificationDataset(BaseAnnotatedDataset[Sequence[int]], Imag
         return (
             self._images[idx],
             as_numpy(one_hot),
-            self._metadata[idx] if self._metadata is not None else {},
+            _ensure_id(idx, self._metadata[idx] if self._metadata is not None else {}),
         )
 class CustomObjectDetectionDataset(BaseAnnotatedDataset[Sequence[Sequence[int]]], ObjectDetectionDataset):
     class ObjectDetectionTarget:
-        def __init__(self, labels: Sequence[int], bboxes: Sequence[Sequence[float]]) -> None:
+        def __init__(self, labels: Sequence[int], bboxes: Sequence[Sequence[float]], class_count: int) -> None:
             self._labels = labels
             self._bboxes = bboxes
-            self._scores = [1.0] * len(labels)
+            one_hot = [[0.0] * class_count] * len(labels)
+            for i, label in enumerate(labels):
+                one_hot[i][label] = 1.0
+            self._scores = one_hot
         @property
         def labels(self) -> Sequence[int]:
@@ -148,7 +155,7 @@ class CustomObjectDetectionDataset(BaseAnnotatedDataset[Sequence[Sequence[int]]]
             return self._bboxes
         @property
-        def scores(self) -> Sequence[float]:
+        def scores(self) -> Sequence[Sequence[float]]:
             return self._scores
     def __init__(
@@ -180,8 +187,8 @@ class CustomObjectDetectionDataset(BaseAnnotatedDataset[Sequence[Sequence[int]]]
     def __getitem__(self, idx: int, /) -> tuple[Array, ObjectDetectionTarget, dict[str, Any]]:
         return (
             self._images[idx],
-            self.ObjectDetectionTarget(self._labels[idx], self._bboxes[idx]),
-            self._metadata[idx] if self._metadata is not None else {},
+            self.ObjectDetectionTarget(self._labels[idx], self._bboxes[idx], len(self._classes)),
+            _ensure_id(idx, self._metadata[idx] if self._metadata is not None else {}),
         )

dataeval/utils/data/_validate.py ADDED Viewed

@@ -0,0 +1,169 @@
+from __future__ import annotations
+__all__ = []
+from typing import Any, Literal, Sequence, Sized
+from dataeval.config import EPSILON
+from dataeval.typing import Array, ObjectDetectionTarget
+from dataeval.utils._array import as_numpy
+class ValidationMessages:
+    DATASET_SIZED = "Dataset must be sized."
+    DATASET_INDEXABLE = "Dataset must be indexable."
+    DATASET_NONEMPTY = "Dataset must be non-empty."
+    DATASET_METADATA = "Dataset must have a 'metadata' attribute."
+    DATASET_METADATA_TYPE = "Dataset metadata must be a dictionary."
+    DATASET_METADATA_FORMAT = "Dataset metadata must contain an 'id' key."
+    DATUM_TYPE = "Dataset datum must be a tuple."
+    DATUM_FORMAT = "Dataset datum must contain 3 elements: image, target, metadata."
+    DATUM_IMAGE_TYPE = "Images must be 3-dimensional arrays."
+    DATUM_IMAGE_FORMAT = "Images must be in CHW format."
+    DATUM_TARGET_IC_TYPE = "ImageClassificationDataset targets must be one-dimensional arrays."
+    DATUM_TARGET_IC_FORMAT = "ImageClassificationDataset targets must be one-hot encoded or pseudo-probabilities."
+    DATUM_TARGET_OD_TYPE = "ObjectDetectionDataset targets must be have 'boxes', 'labels' and 'scores'."
+    DATUM_TARGET_OD_LABELS_TYPE = "ObjectDetectionTarget labels must be one-dimensional (N,) arrays."
+    DATUM_TARGET_OD_BOXES_TYPE = "ObjectDetectionTarget boxes must be two-dimensional (N, 4) arrays in xxyy format."
+    DATUM_TARGET_OD_SCORES_TYPE = "ObjectDetectionTarget scores must be one (N,) or two-dimensional (N, M) arrays."
+    DATUM_TARGET_TYPE = "Target is not a valid ImageClassification or ObjectDetection target type."
+    DATUM_METADATA_TYPE = "Datum metadata must be a dictionary."
+    DATUM_METADATA_FORMAT = "Datum metadata must contain an 'id' key."
+def _validate_dataset_type(dataset: Any) -> list[str]:
+    issues = []
+    is_sized = isinstance(dataset, Sized)
+    is_indexable = hasattr(dataset, "__getitem__")
+    if not is_sized:
+        issues.append(ValidationMessages.DATASET_SIZED)
+    if not is_indexable:
+        issues.append(ValidationMessages.DATASET_INDEXABLE)
+    if is_sized and len(dataset) == 0:
+        issues.append(ValidationMessages.DATASET_NONEMPTY)
+    return issues
+def _validate_dataset_metadata(dataset: Any) -> list[str]:
+    issues = []
+    if not hasattr(dataset, "metadata"):
+        issues.append(ValidationMessages.DATASET_METADATA)
+    metadata = getattr(dataset, "metadata", None)
+    if not isinstance(metadata, dict):
+        issues.append(ValidationMessages.DATASET_METADATA_TYPE)
+    if not isinstance(metadata, dict) or "id" not in metadata:
+        issues.append(ValidationMessages.DATASET_METADATA_FORMAT)
+    return issues
+def _validate_datum_type(datum: Any) -> list[str]:
+    issues = []
+    if not isinstance(datum, tuple):
+        issues.append(ValidationMessages.DATUM_TYPE)
+    if datum is None or isinstance(datum, Sized) and len(datum) != 3:
+        issues.append(ValidationMessages.DATUM_FORMAT)
+    return issues
+def _validate_datum_image(image: Any) -> list[str]:
+    issues = []
+    if not isinstance(image, Array) or len(image.shape) != 3:
+        issues.append(ValidationMessages.DATUM_IMAGE_TYPE)
+    if (
+        not isinstance(image, Array)
+        or len(image.shape) == 3
+        and (image.shape[0] > image.shape[1] or image.shape[0] > image.shape[2])
+    ):
+        issues.append(ValidationMessages.DATUM_IMAGE_FORMAT)
+    return issues
+def _validate_datum_target_ic(target: Any) -> list[str]:
+    issues = []
+    if not isinstance(target, Array) or len(target.shape) != 1:
+        issues.append(ValidationMessages.DATUM_TARGET_IC_TYPE)
+    if target is None or sum(target) > 1 + EPSILON or sum(target) < 1 - EPSILON:
+        issues.append(ValidationMessages.DATUM_TARGET_IC_FORMAT)
+    return issues
+def _validate_datum_target_od(target: Any) -> list[str]:
+    issues = []
+    if not isinstance(target, ObjectDetectionTarget):
+        issues.append(ValidationMessages.DATUM_TARGET_OD_TYPE)
+    od_target: ObjectDetectionTarget | None = target if isinstance(target, ObjectDetectionTarget) else None
+    if od_target is None or len(as_numpy(od_target.labels).shape) != 1:
+        issues.append(ValidationMessages.DATUM_TARGET_OD_LABELS_TYPE)
+    if (
+        od_target is None
+        or len(as_numpy(od_target.boxes).shape) != 2
+        or (len(as_numpy(od_target.boxes).shape) == 2 and as_numpy(od_target.boxes).shape[1] != 4)
+    ):
+        issues.append(ValidationMessages.DATUM_TARGET_OD_BOXES_TYPE)
+    if od_target is None or len(as_numpy(od_target.scores).shape) not in (1, 2):
+        issues.append(ValidationMessages.DATUM_TARGET_OD_SCORES_TYPE)
+    return issues
+def _detect_target_type(target: Any) -> Literal["ic", "od", "auto"]:
+    if isinstance(target, Array):
+        return "ic"
+    if isinstance(target, ObjectDetectionTarget):
+        return "od"
+    return "auto"
+def _validate_datum_target(target: Any, target_type: Literal["ic", "od", "auto"]) -> list[str]:
+    issues = []
+    target_type = _detect_target_type(target) if target_type == "auto" else target_type
+    if target_type == "ic":
+        issues.extend(_validate_datum_target_ic(target))
+    elif target_type == "od":
+        issues.extend(_validate_datum_target_od(target))
+    else:
+        issues.append(ValidationMessages.DATUM_TARGET_TYPE)
+    return issues
+def _validate_datum_metadata(metadata: Any) -> list[str]:
+    issues = []
+    if metadata is None or not isinstance(metadata, dict):
+        issues.append(ValidationMessages.DATUM_METADATA_TYPE)
+    if metadata is None or isinstance(metadata, dict) and "id" not in metadata:
+        issues.append(ValidationMessages.DATUM_METADATA_FORMAT)
+    return issues
+def validate_dataset(dataset: Any, dataset_type: Literal["ic", "od", "auto"] = "auto") -> None:
+    """
+    Validate a dataset for compliance with MAITE protocol.
+    Parameters
+    ----------
+    dataset: Any
+        Dataset to validate.
+    dataset_type: "ic", "od", or "auto", default "auto"
+        Dataset type, if known.
+    Raises
+    ------
+    ValueError
+        Raises exception if dataset is invalid with a list of validation issues.
+    """
+    issues = []
+    issues.extend(_validate_dataset_type(dataset))
+    datum = None if issues else dataset[0]  # type: ignore
+    issues.extend(_validate_dataset_metadata(dataset))
+    issues.extend(_validate_datum_type(datum))
+    is_seq = isinstance(datum, Sequence)
+    datum_len = len(datum) if is_seq else 0
+    image = datum[0] if is_seq and datum_len > 0 else None
+    target = datum[1] if is_seq and datum_len > 1 else None
+    metadata = datum[2] if is_seq and datum_len > 2 else None
+    issues.extend(_validate_datum_image(image))
+    issues.extend(_validate_datum_target(target, dataset_type))
+    issues.extend(_validate_datum_metadata(metadata))
+    if issues:
+        raise ValueError("Dataset validation issues found:\n - " + "\n - ".join(issues))

{dataeval-0.86.9.dist-info → dataeval-0.87.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: dataeval
-Version: 0.86.9
+Version: 0.87.0
 Summary: DataEval provides a simple interface to characterize image data and its impact on model performance across classification and object-detection tasks
 Project-URL: Homepage, https://dataeval.ai/
 Project-URL: Repository, https://github.com/aria-ml/dataeval/
@@ -8,7 +8,7 @@ Project-URL: Documentation, https://dataeval.readthedocs.io/
 Author-email: Andrew Weng <andrew.weng@ariacoustics.com>, Bill Peria <bill.peria@ariacoustics.com>, Jon Botts <jonathan.botts@ariacoustics.com>, Jonathan Christian <jonathan.christian@ariacoustics.com>, Justin McMillan <justin.mcmillan@ariacoustics.com>, Ryan Wood <ryan.wood@ariacoustics.com>, Scott Swan <scott.swan@ariacoustics.com>, Shaun Jullens <shaun.jullens@ariacoustics.com>
 Maintainer-email: ARiA <dataeval@ariacoustics.com>
 License-Expression: MIT
-License-File: LICENSE.txt
+License-File: LICENSE
 Classifier: Development Status :: 4 - Beta
 Classifier: Intended Audience :: Science/Research
 Classifier: License :: OSI Approved :: MIT License
@@ -20,15 +20,12 @@ Classifier: Programming Language :: Python :: 3.11
 Classifier: Programming Language :: Python :: 3.12
 Classifier: Topic :: Scientific/Engineering
 Requires-Python: <3.13,>=3.9
-Requires-Dist: defusedxml>=0.7.1
 Requires-Dist: fast-hdbscan==0.2.0
 Requires-Dist: lightgbm>=4
 Requires-Dist: numba>=0.59.1
 Requires-Dist: numpy>=1.24.2
 Requires-Dist: pandas>=2.0
-Requires-Dist: pillow>=10.3.0
 Requires-Dist: polars>=1.0.0
-Requires-Dist: requests>=2.32.3
 Requires-Dist: scikit-learn>=1.5.0
 Requires-Dist: scipy>=1.10
 Requires-Dist: torch>=2.2.0
@@ -123,14 +120,8 @@ micromamba create -f environment\environment.yaml -c pytorch
 ### **Installing from GitHub**
-To install DataEval from source locally on Ubuntu, you will need `git-lfs` to
-download larger, binary source files.
-```bash
-sudo apt-get install git-lfs
-```
-Pull the source down and change to the DataEval project directory.
+To install DataEval from source locally on Ubuntu, pull the source down and
+change to the DataEval project directory.
 ```bash
 git clone https://github.com/aria-ml/dataeval.git
@@ -167,10 +158,7 @@ source .venv/bin/activate
 ## Contact Us
-If you have any questions, feel free to reach out to the people below:
-- **POC**: Scott Swan @scott.swan
-- **DPOC**: Andrew Weng @aweng
+If you have any questions, feel free to reach out to [us](mailto:dataeval@ariacoustics.com)!
 ## Acknowledgement

dataeval 0.86.9__py3-none-any.whl → 0.87.0__py3-none-any.whl

dataeval 0.86.9py3-none-any.whl → 0.87.0py3-none-any.whl