PyPI - dataeval - Versions diffs - 0.87.0__py3-none-any.whl → 0.88.0__py3-none-any.whl - Mend

dataeval 0.87.0py3-none-any.whl → 0.88.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (56) hide show

dataeval/_log.py +1 -1
dataeval/_version.py +2 -2
dataeval/data/_embeddings.py +78 -35
dataeval/data/_images.py +41 -8
dataeval/data/_metadata.py +294 -41
dataeval/data/_selection.py +22 -7
dataeval/data/_split.py +2 -1
dataeval/data/selections/_classfilter.py +4 -3
dataeval/data/selections/_indices.py +2 -1
dataeval/data/selections/_shuffle.py +3 -2
dataeval/detectors/drift/_base.py +2 -1
dataeval/detectors/drift/_mmd.py +2 -1
dataeval/detectors/drift/_nml/_base.py +1 -1
dataeval/detectors/drift/_nml/_chunk.py +2 -1
dataeval/detectors/drift/_nml/_result.py +3 -2
dataeval/detectors/drift/_nml/_thresholds.py +6 -5
dataeval/detectors/drift/_uncertainty.py +2 -1
dataeval/detectors/linters/duplicates.py +2 -1
dataeval/detectors/linters/outliers.py +4 -3
dataeval/detectors/ood/ae.py +1 -1
dataeval/detectors/ood/base.py +2 -1
dataeval/detectors/ood/mixin.py +2 -1
dataeval/metadata/_utils.py +1 -1
dataeval/metrics/bias/_balance.py +1 -1
dataeval/metrics/stats/_base.py +3 -29
dataeval/metrics/stats/_boxratiostats.py +2 -1
dataeval/metrics/stats/_dimensionstats.py +2 -1
dataeval/metrics/stats/_hashstats.py +2 -1
dataeval/metrics/stats/_pixelstats.py +2 -1
dataeval/metrics/stats/_visualstats.py +2 -1
dataeval/outputs/_base.py +2 -3
dataeval/outputs/_bias.py +2 -1
dataeval/outputs/_estimators.py +1 -1
dataeval/outputs/_linters.py +3 -3
dataeval/outputs/_stats.py +3 -3
dataeval/outputs/_utils.py +1 -1
dataeval/outputs/_workflows.py +29 -24
dataeval/typing.py +11 -9
dataeval/utils/_array.py +3 -2
dataeval/utils/_bin.py +2 -1
dataeval/utils/_method.py +2 -3
dataeval/utils/_multiprocessing.py +34 -0
dataeval/utils/_plot.py +2 -1
dataeval/utils/data/__init__.py +4 -5
dataeval/utils/data/{metadata.py → _merge.py} +3 -2
dataeval/utils/data/_validate.py +2 -1
dataeval/utils/data/collate.py +2 -1
dataeval/utils/torch/_internal.py +2 -1
dataeval/utils/torch/trainer.py +1 -1
dataeval/workflows/sufficiency.py +13 -9
{dataeval-0.87.0.dist-info → dataeval-0.88.0.dist-info}/METADATA +4 -5
dataeval-0.88.0.dist-info/RECORD +105 -0
dataeval/utils/data/_dataset.py +0 -253
dataeval-0.87.0.dist-info/RECORD +0 -105
{dataeval-0.87.0.dist-info → dataeval-0.88.0.dist-info}/WHEEL +0 -0
{dataeval-0.87.0.dist-info → dataeval-0.88.0.dist-info}/licenses/LICENSE +0 -0

dataeval/utils/_plot.py CHANGED Viewed

@@ -4,7 +4,8 @@ __all__ = []
 import contextlib
 import math
-from typing import Any, Mapping, Sequence
+from collections.abc import Mapping, Sequence
+from typing import Any
 import numpy as np

dataeval/utils/data/__init__.py CHANGED Viewed

@@ -1,13 +1,12 @@
 """Provides access to common Computer Vision datasets."""
-from dataeval.utils.data import collate, metadata
-from dataeval.utils.data._dataset import to_image_classification_dataset, to_object_detection_dataset
+from dataeval.utils.data import collate
+from dataeval.utils.data._merge import flatten, merge
 from dataeval.utils.data._validate import validate_dataset
 __all__ = [
     "collate",
-    "metadata",
-    "to_image_classification_dataset",
-    "to_object_detection_dataset",
+    "flatten",
+    "merge",
     "validate_dataset",
 ]

dataeval/utils/data/{metadata.py → _merge.py} RENAMED Viewed

@@ -7,8 +7,9 @@ from __future__ import annotations
 __all__ = ["merge", "flatten"]
 import warnings
+from collections.abc import Iterable, Mapping, Sequence
 from enum import Enum
-from typing import Any, Iterable, Literal, Mapping, Sequence, overload
+from typing import Any, Literal, overload
 import numpy as np
 from numpy.typing import NDArray
@@ -132,7 +133,7 @@ def _flatten_dict_inner(
         if isinstance(v, dict):
             fd, size = _flatten_dict_inner(v, dropped, new_keys, size=size, nested=nested)
             items.update(fd)
-        elif isinstance(v, (list, tuple)):
+        elif isinstance(v, list | tuple):
             if nested:
                 dropped.setdefault(parent_keys + (k,), set()).add(DropReason.NESTED_LIST)
             elif size is not None and size != len(v):

dataeval/utils/data/_validate.py CHANGED Viewed

@@ -2,7 +2,8 @@ from __future__ import annotations
 __all__ = []
-from typing import Any, Literal, Sequence, Sized
+from collections.abc import Sequence, Sized
+from typing import Any, Literal
 from dataeval.config import EPSILON
 from dataeval.typing import Array, ObjectDetectionTarget

dataeval/utils/data/collate.py CHANGED Viewed

@@ -6,7 +6,8 @@ from __future__ import annotations
 __all__ = ["list_collate_fn", "numpy_collate_fn", "torch_collate_fn"]
-from typing import Any, Iterable, Sequence, TypeVar
+from collections.abc import Iterable, Sequence
+from typing import Any, TypeVar
 import numpy as np
 import torch

dataeval/utils/torch/_internal.py CHANGED Viewed

@@ -2,7 +2,8 @@ from __future__ import annotations
 __all__ = []
-from typing import Any, Callable
+from collections.abc import Callable
+from typing import Any
 import numpy as np
 import torch

dataeval/utils/torch/trainer.py CHANGED Viewed

@@ -16,7 +16,7 @@ from dataeval.config import DeviceLike, get_device
 def get_images_from_batch(batch: Any) -> Any:
     """Extracts images from a batch of collated data by DataLoader"""
-    return batch[0] if isinstance(batch, (list, tuple)) else batch
+    return batch[0] if isinstance(batch, list | tuple) else batch
 class AETrainer:

dataeval/workflows/sufficiency.py CHANGED Viewed

@@ -2,7 +2,8 @@ from __future__ import annotations
 __all__ = []
-from typing import Any, Callable, Generic, Iterable, Mapping, Sequence, Sized, TypeVar
+from collections.abc import Callable, Iterable, Mapping, Sequence, Sized
+from typing import Any, Generic, TypeVar
 import numpy as np
 import torch
@@ -207,7 +208,9 @@ class Sufficiency(Generic[T]):
         ...     substeps=5,
         ... )
         >>> suff.evaluate()
-        SufficiencyOutput(steps=array([  1,   3,  10,  31, 100], dtype=uint32), measures={'test': array([1., 1., 1., 1., 1.])}, n_iter=1000)
+        SufficiencyOutput(steps=array([  1,   3,  10,  31, 100], dtype=uint32), measures={'test': array([[1., 1., 1., 1., 1.],
+               [1., 1., 1., 1., 1.],
+               [1., 1., 1., 1., 1.]])}, averaged_measures={'test': array([1., 1., 1., 1., 1.])}, n_iter=1000)
         Evaluate at a single value
@@ -219,7 +222,7 @@ class Sufficiency(Generic[T]):
         ...     eval_fn=eval_fn,
         ... )
         >>> suff.evaluate(eval_at=50)
-        SufficiencyOutput(steps=array([50]), measures={'test': array([1.])}, n_iter=1000)
+        SufficiencyOutput(steps=array([50]), measures={'test': array([[1.]])}, averaged_measures={'test': array([1.])}, n_iter=1000)
         Evaluating at linear steps from 0-100 inclusive
@@ -231,7 +234,7 @@ class Sufficiency(Generic[T]):
         ...     eval_fn=eval_fn,
         ... )
         >>> suff.evaluate(eval_at=np.arange(0, 101, 20))
-        SufficiencyOutput(steps=array([  0,  20,  40,  60,  80, 100]), measures={'test': array([1., 1., 1., 1., 1., 1.])}, n_iter=1000)
+        SufficiencyOutput(steps=array([  0,  20,  40,  60,  80, 100]), measures={'test': array([[1., 1., 1., 1., 1., 1.]])}, averaged_measures={'test': array([1., 1., 1., 1., 1., 1.])}, n_iter=1000)
         """  # noqa: E501
         if eval_at is not None:
@@ -249,7 +252,7 @@ class Sufficiency(Generic[T]):
         measures = {}
         # Run each model over all indices
-        for _ in range(self.runs):
+        for run in range(self.runs):
             # Create a randomized set of indices to use
             indices = np.random.randint(0, self._length, size=self._length)
             # Reset the network weights to "create" an untrained model
@@ -272,9 +275,10 @@ class Sufficiency(Generic[T]):
                     # Sum result into current substep iteration to be averaged later
                     value = np.array(value).ravel()
                     if name not in measures:
-                        measures[name] = np.zeros(substeps if len(value) == 1 else (substeps, len(value)))
-                    measures[name][iteration] += value
+                        measures[name] = np.zeros(
+                            (self.runs, substeps) if len(value) == 1 else (self.runs, substeps, len(value))
+                        )
+                    measures[name][run, iteration] = value
         # The mean for each measure must be calculated before being returned
-        measures = {k: (v / self.runs).T for k, v in measures.items()}
-        return SufficiencyOutput(ranges, measures)
+        return SufficiencyOutput(ranges, measures=measures)

{dataeval-0.87.0.dist-info → dataeval-0.88.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: dataeval
-Version: 0.87.0
+Version: 0.88.0
 Summary: DataEval provides a simple interface to characterize image data and its impact on model performance across classification and object-detection tasks
 Project-URL: Homepage, https://dataeval.ai/
 Project-URL: Repository, https://github.com/aria-ml/dataeval/
@@ -14,12 +14,11 @@ Classifier: Intended Audience :: Science/Research
 Classifier: License :: OSI Approved :: MIT License
 Classifier: Operating System :: OS Independent
 Classifier: Programming Language :: Python :: 3 :: Only
-Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Programming Language :: Python :: 3.11
 Classifier: Programming Language :: Python :: 3.12
 Classifier: Topic :: Scientific/Engineering
-Requires-Python: <3.13,>=3.9
+Requires-Python: <3.13,>=3.10
 Requires-Dist: fast-hdbscan==0.2.0
 Requires-Dist: lightgbm>=4
 Requires-Dist: numba>=0.59.1
@@ -31,7 +30,7 @@ Requires-Dist: scipy>=1.10
 Requires-Dist: torch>=2.2.0
 Requires-Dist: torchvision>=0.17.0
 Requires-Dist: tqdm>=4.66
-Requires-Dist: typing-extensions>=4.12; python_version ~= '3.9'
+Requires-Dist: typing-extensions>=4.12
 Requires-Dist: xxhash>=3.3
 Provides-Extra: all
 Requires-Dist: matplotlib>=3.7.1; extra == 'all'
@@ -88,7 +87,7 @@ using MAITE-compliant datasets and models.
 ## Getting Started
-**Python versions:** 3.9 - 3.12
+**Python versions:** 3.10 - 3.12
 **Supported packages**: _NumPy_, _Pandas_, _Sci-kit learn_, _MAITE_, _NRTK_

dataeval-0.88.0.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,105 @@
+dataeval/__init__.py,sha256=aFzX3SLx8wgc763RY772P41ZLqeHcUHRKW9XAN0KfHQ,1793
+dataeval/_log.py,sha256=Q2d6oqYKXyn1wkgMdNX9iswod4Jq0jPADShrCFVgJI0,374
+dataeval/_version.py,sha256=p36W3DcVLrkAWnGoljUjU-PF8_IvHjfGbC98bXZ2g_c,513
+dataeval/config.py,sha256=lL73s_xa9pBxHHCnBKi59D_tl4vS7ig1rfWbIYkM_ac,3839
+dataeval/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+dataeval/typing.py,sha256=cKpK8rY7iVf-KL9kuye6qi_6LS6hKbMxHpurdWlYY44,7445
+dataeval/data/__init__.py,sha256=wzQ6uUFLNB3VJR0a2QnRBYwEmwXT93q0WpHu7FmFW1E,486
+dataeval/data/_embeddings.py,sha256=BHoiSdt46TblVSglg9Cyrm8iAJJq1Z2jR4wesL0WOf4,14731
+dataeval/data/_images.py,sha256=9q0O5Zurf-5727rMC7DB_i3TtXcL67D9a5GGx5qlov8,3875
+dataeval/data/_metadata.py,sha256=-dhmyX6vvv97S9YHr6roNcbzXequkxMw48PwNDdzZ9I,24163
+dataeval/data/_selection.py,sha256=4qI-GwSdEGiRCyr3kqxr6uOiyRRKsPBRzYHmpgdWLY0,5301
+dataeval/data/_split.py,sha256=aCkXFvkCw8VkWICdCmY9tHiEvkQI5j9jUa7QLjm-gZE,16759
+dataeval/data/selections/__init__.py,sha256=2m8ZB53wXzqLcqmc6p5atO6graB6ZyiRSNJFxf11X_g,613
+dataeval/data/selections/_classbalance.py,sha256=AqExg-QnYBcfBNzS1Ygsz3Cgb2cqcgGXE0-cseD8_vA,1580
+dataeval/data/selections/_classfilter.py,sha256=sn7Lbhb5KJyiqDH7ZdugX5WnRlglwCckWzK6K5uXbwg,4447
+dataeval/data/selections/_indices.py,sha256=PcM4qQwFVUXO9xY2brO6OUDFMeVgiSlTRKFDhTA_W-0,655
+dataeval/data/selections/_limit.py,sha256=JG4GmEiNKt3sk4PbOUbBnGGzNlyz72H-kQrt8COMm4Y,512
+dataeval/data/selections/_prioritize.py,sha256=ss_GZ5MB2ohdNuB55C69TYNwV3PUSmk715gDJI6qfYA,20140
+dataeval/data/selections/_reverse.py,sha256=FqYlpPg-0Vz75kbEhGFrJlzIGELSmDZxPlBMY18a57I,365
+dataeval/data/selections/_shuffle.py,sha256=uW_Zss773ob2swqwTdL6G-CzMElCq8TO2TScvABQR1U,1268
+dataeval/detectors/__init__.py,sha256=3Sg-XWlwr75zEEH3hZKA4nWMtGvaRlnfzTWvZG_Ak6U,189
+dataeval/detectors/drift/__init__.py,sha256=Jqv98oOVeC2tvHlNGxQ8RJ6De2q4SyS5lTpaYlb4ocM,756
+dataeval/detectors/drift/_base.py,sha256=__mlqkiPW0GcVSVE4u9t6M2mp3rAU5leSk_XPQn_Mp8,7619
+dataeval/detectors/drift/_cvm.py,sha256=cS33zWJmFY1fft1XcANcP2jSD5ou7TxvIU2AldhTynM,3004
+dataeval/detectors/drift/_ks.py,sha256=uMc5-NA-lSV1IODrY8uJe87ll3uRJT_oXLJFXy95M1w,3186
+dataeval/detectors/drift/_mmd.py,sha256=EkfbeK5L6xGGQrcA1v_0YlpIOingF73jn2H6s3tRKbo,11550
+dataeval/detectors/drift/_mvdc.py,sha256=WMN6aDOWCh1q1MtdRXFIZlFcfnVi4XgBHsS0A6L5UuY,2942
+dataeval/detectors/drift/_uncertainty.py,sha256=-4aiwNosJ1_4kY-d2n4YbZV_jvnf5xdTMDELXSoW6OM,5874
+dataeval/detectors/drift/updates.py,sha256=L1PnrPlIE1x6ujCc5mCwjcAZwadVTn-Zjb6MnTDvzJQ,2251
+dataeval/detectors/drift/_nml/__init__.py,sha256=MNyKyZlfTjr5uQql2uBBfRkUdsuduie_WJdn09GYmqg,137
+dataeval/detectors/drift/_nml/_base.py,sha256=wMqegfa92Tldqix1RL6dLMdiKgX0GqHmTiFxO38ja_c,2672
+dataeval/detectors/drift/_nml/_chunk.py,sha256=5WhpcIHJ3EVBGZjDJLri54fWikYAT_7sC0DxQkSs0tI,13591
+dataeval/detectors/drift/_nml/_domainclassifier.py,sha256=n7Ttq5Ej7sAY9Jn2iagaGj4IIWiG8gmA3wwFizlBqes,7292
+dataeval/detectors/drift/_nml/_result.py,sha256=mH_tYrYVaIXhsU9gcSFqEdaI38BArlpKuW0-8SPS8aY,3295
+dataeval/detectors/drift/_nml/_thresholds.py,sha256=jAbRdAPP4O4hJqTLpvfVAbWNdw3zL6UrTl2KNWphQPc,12083
+dataeval/detectors/linters/__init__.py,sha256=xn2zPwUcmsuf-Jd9uw6AVI11C9z1b1Y9fYtuFnXenZ0,404
+dataeval/detectors/linters/duplicates.py,sha256=k5cQz_1i9vchugSfC267mugWzgy6sVDa36BdQAy_PXs,4990
+dataeval/detectors/linters/outliers.py,sha256=a980lDV9g_tZYHV9k6wSh2d11nNYEqTy56IduC-H5GA,10159
+dataeval/detectors/ood/__init__.py,sha256=qDoDdQetJY1xZB43dNzcOIO_8NiEuEU0z1QNU4QkEXs,341
+dataeval/detectors/ood/ae.py,sha256=jo6aHcKT1N13ew0tV6FZa3vQI5DQivZo5-uAm4uLaAs,2950
+dataeval/detectors/ood/base.py,sha256=eWzODq2i1Tah7Mqm1guASTf9p2tF4Tr6mZoDT3pDvsk,4401
+dataeval/detectors/ood/knn.py,sha256=Fu77geQFHPYNOn81VIXUJ3yC3t5Ylv0ZgvwMeA2JX6I,3782
+dataeval/detectors/ood/mixin.py,sha256=cNmRrR9cv9phwAGSuQMC7EhmrFtf68C63wdTggy1UaU,5458
+dataeval/metadata/__init__.py,sha256=XDDmJbOZBNM6pL0r6Nbu6oMRoyAh22IDkPYGndNlkZU,316
+dataeval/metadata/_distance.py,sha256=MbXM9idsooNWnGLaTKg8j4ZqavUeJUjuW7EPW3-UQyg,4234
+dataeval/metadata/_ood.py,sha256=lNPHouj_9WfM_uTtsaiRaPn46RcVy3YebD1c32vDj-c,8981
+dataeval/metadata/_utils.py,sha256=4fX-1eA3fK4uwNh_DfOGiXxl4PHZ1AghOejJ03rV3RI,1219
+dataeval/metrics/__init__.py,sha256=8VC8q3HuJN3o_WN51Ae2_wXznl3RMXIvA5GYVcy7vr8,225
+dataeval/metrics/bias/__init__.py,sha256=329S1_3WnWqeU4-qVcbe0fMy4lDrj9uKslWHIQf93yg,839
+dataeval/metrics/bias/_balance.py,sha256=aDAII2lXeAz9dZk0TdgZHtyab1tObQlya8jdNNdn8eI,5718
+dataeval/metrics/bias/_completeness.py,sha256=2cvOXe7fhtxZGH_4QBuiCafIeamxFBarMiUBuEP7QGI,4596
+dataeval/metrics/bias/_coverage.py,sha256=v2x2hbOf2za9jFcSVSJUAoJ2BJfzzlCzt0mFIGtBL0A,3639
+dataeval/metrics/bias/_diversity.py,sha256=Z7UQzKp9bsmB-hC3_sY6HIJUJRkLHb5cVEoU79cNDzc,5800
+dataeval/metrics/bias/_parity.py,sha256=ZIKc5OK6wQ4moleBJzGDfOPvyNzj03-KoHAGBZnO4pk,11433
+dataeval/metrics/estimators/__init__.py,sha256=Pnds8uIyAovt2fKqZjiHCIP_kVoBWlVllekYuK5UmmU,568
+dataeval/metrics/estimators/_ber.py,sha256=7noeRyOJJYqrJ_jt90nRHtR2t2u5MIvTCmWt0_rd4EU,5370
+dataeval/metrics/estimators/_clusterer.py,sha256=1HrpihGTJ63IkNSOy4Ibw633Gllkm1RxKmoKT5MOgt0,1434
+dataeval/metrics/estimators/_divergence.py,sha256=t-Z_7Bq4V4FunxKlq7G4ThtgLany8n4iEU0n0afr7F8,3991
+dataeval/metrics/estimators/_uap.py,sha256=BULEBbJ9BQ1IcTeZf0x7iI60QHAWCccBOM97FIu9VXA,1928
+dataeval/metrics/stats/__init__.py,sha256=6tA_9nbbM5ObJ6cds8Y1VBtTQiTOxrpGQSFLu_lWGGA,1098
+dataeval/metrics/stats/_base.py,sha256=vE8dvrNqjAKGyCzqlgQa-3ArP6PJ-P8Y4rdNPUZ0ml8,11703
+dataeval/metrics/stats/_boxratiostats.py,sha256=CFn-BqnPmAXagaLlhJGusdGLQewWxRweb9Xxv_JAOaw,6477
+dataeval/metrics/stats/_dimensionstats.py,sha256=GlzshH7nZurVWANmZmpuXy_v5ZfMrdAfO_FbtHTL38Q,2903
+dataeval/metrics/stats/_hashstats.py,sha256=wsy8F8-UMUbtjeCnaqAR9Yxv_jp4kFerHH2L0UMIAgY,5415
+dataeval/metrics/stats/_imagestats.py,sha256=gUPNgN5Zwzdr7WnSwbve1NXNsyxd5dy3cSnlR_7guCg,3007
+dataeval/metrics/stats/_labelstats.py,sha256=_dXt3p8_-SHEtHvJWbL0rnQvO2g30zxX42mG2LGJepU,3195
+dataeval/metrics/stats/_pixelstats.py,sha256=XEFByxMUbNaCvEsnVhH5ewJ8UH253ySdpFe5u1jr38w,3339
+dataeval/metrics/stats/_visualstats.py,sha256=SbXvNWxfKrw-2wCu5FXMsnpsMUVaQzdJkj6RB4qEsBM,3740
+dataeval/outputs/__init__.py,sha256=geHB5M3QOiFFaQGV4ZwDTTKpqZPvPePbqG7lzaPhaXQ,1741
+dataeval/outputs/_base.py,sha256=lVC7xmBgv3JYY2wVLaGBMPlkRE_KV9UloaeQn0nQydA,5875
+dataeval/outputs/_bias.py,sha256=gj2AgSKOdq6bj59RMiHpha4Skld6ZMB8cW5KesOZ6T4,10483
+dataeval/outputs/_drift.py,sha256=hXILED_soY8ppIQZgftQvmumtwDrTnABbYl-flIGEU4,4588
+dataeval/outputs/_estimators.py,sha256=SUjur5jI6OU9C7GpsAuA_qqO1PRnS-8eZN-otsaV5q0,3120
+dataeval/outputs/_linters.py,sha256=N4nP5HMoeN2zLndWzhoIT5QB1Ujxbs8Gx5pWPKhl3yc,6683
+dataeval/outputs/_metadata.py,sha256=ffZgpX8KWURPHXpOWjbvJ2KRqWQkS2nWuIjKUzoHhMI,1710
+dataeval/outputs/_ood.py,sha256=suLKVXULGtXH0rq9eXHI1d3d2jhGmItJtz4QiQd47A4,1718
+dataeval/outputs/_stats.py,sha256=PsDV0uw41aTy-X9tjz-PqOj78TTnH4JQVpOrU3OThAE,17423
+dataeval/outputs/_utils.py,sha256=KJ1P8tcMFIkGi2A6VfqbZwLcT1cD0c2YssTbWbHALjE,938
+dataeval/outputs/_workflows.py,sha256=sw13FNx1vANX7DBsKeOLfP2bkp5r6SexBorfb9dxYxU,12160
+dataeval/utils/__init__.py,sha256=sjelzMPaTImF6isiRcp8UGDE3tppEpWS5GoR8WKPZ1k,242
+dataeval/utils/_array.py,sha256=P4_gyH3kkksUJm9Vqx-oPtLWxFmqMacUJzhj0vmrUd8,6361
+dataeval/utils/_bin.py,sha256=QjlRCB5mOauETdxSbvRxRG17riO6gScsMd_lNnnvqxs,7391
+dataeval/utils/_clusterer.py,sha256=rUvEdyMwp95lffmt6xKMEwsjRXNoBS0n5mAS_HNOnck,5656
+dataeval/utils/_fast_mst.py,sha256=pv42flr1Uf5RBa9qDG0YLDXWH7Mr7a9zpauO1HqZXaY,8061
+dataeval/utils/_image.py,sha256=4uxTIOYZZlRJOfNmdA3ek3no3FrLWCK5un48kStMDt8,3578
+dataeval/utils/_method.py,sha256=53Q3xfQvpyGa-z9_rn6GhjfCcUR5Q9nuWQtCNav4Ftc,391
+dataeval/utils/_mst.py,sha256=bLmJmu_1Dtj3hC5gQp3oAiJ_7TKtEjahTqusVRRU4eI,2168
+dataeval/utils/_multiprocessing.py,sha256=n6qCVybheWry42NCdxzcsgkJ9xLGkz8m12SWgviTJQM,1060
+dataeval/utils/_plot.py,sha256=kwYZbSdHCV02wRrZDTxR3xd0XfQ-6TlLmfvubwiEQcw,7252
+dataeval/utils/data/__init__.py,sha256=_XoNxADxBdR96Ca-0RgkDlQa6C2FHld1nwts-Xdif3g,294
+dataeval/utils/data/_merge.py,sha256=9JKtlpBarMX_9jlhnQg1AmBwTe9I2w6xQkFGss3IkkU,14729
+dataeval/utils/data/_validate.py,sha256=YH5Q6uzcTRdf_AMKMRyYW37RUlXm-S8ddhw6cegdNkc,6950
+dataeval/utils/data/collate.py,sha256=AWoQ2k9FXyTeq6ExTsGa6sBML_lZm9p38-DN9hnpm8E,3963
+dataeval/utils/torch/__init__.py,sha256=dn5mjCrFp0b1aL_UEURhONU0Ag0cmXoTOBSGagpkTiA,325
+dataeval/utils/torch/_blocks.py,sha256=HVhBTMMD5NA4qheMUgyol1KWiKZDIuc8k5j4RcMKmhk,1466
+dataeval/utils/torch/_gmm.py,sha256=XM68GNEP97EjaB1U49-ZXRb81d0CEFnPS910alrcB3g,3740
+dataeval/utils/torch/_internal.py,sha256=LiuqZGIzKewp_29_Lskj0mnNqdMffMheMdgGeXLDI5g,4173
+dataeval/utils/torch/models.py,sha256=1idpXyjrYcCBSsbxxRUOto8xr4MJNjDEqQHiIXVU5Zc,9700
+dataeval/utils/torch/trainer.py,sha256=kBdgxd9TL1Pvz-dyZbS__POAKeFrDiQ4vKFh8ltJApc,5543
+dataeval/workflows/__init__.py,sha256=ou8y0KO-d6W5lgmcyLjKlf-J_ckP3vilW7wHkgiDlZ4,255
+dataeval/workflows/sufficiency.py,sha256=4DTDaYyEuAfO0LTFpQGXXXayV5aCIbziSL2Rddd1vQ0,10360
+dataeval-0.88.0.dist-info/METADATA,sha256=Y5NRZgrhfpyGQKHUnqnO6rAItVR3oWUqIp646_0xluQ,5601
+dataeval-0.88.0.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
+dataeval-0.88.0.dist-info/licenses/LICENSE,sha256=uAooygKWvX6NbU9Ran9oG2msttoG8aeTeHSTe5JeCnY,1061
+dataeval-0.88.0.dist-info/RECORD,,

dataeval/utils/data/_dataset.py DELETED Viewed

@@ -1,253 +0,0 @@
-from __future__ import annotations
-__all__ = []
-from typing import Any, Generic, Iterable, Literal, Sequence, SupportsFloat, SupportsInt, TypeVar, cast
-from dataeval.typing import (
-    Array,
-    ArrayLike,
-    DatasetMetadata,
-    ImageClassificationDataset,
-    ObjectDetectionDataset,
-)
-from dataeval.utils._array import as_numpy
-def _ensure_id(index: int, metadata: dict[str, Any]) -> dict[str, Any]:
-    return {"id": index, **metadata} if "id" not in metadata else metadata
-def _validate_data(
-    datum_type: Literal["ic", "od"],
-    images: Array | Sequence[Array],
-    labels: Array | Sequence[int] | Sequence[Array] | Sequence[Sequence[int]],
-    bboxes: Array | Sequence[Array] | Sequence[Sequence[Array]] | Sequence[Sequence[Sequence[float]]] | None,
-    metadata: Sequence[dict[str, Any]] | dict[str, Sequence[Any]] | None,
-) -> None:
-    # Validate inputs
-    dataset_len = len(images)
-    if not isinstance(images, (Sequence, Array)) or len(images[0].shape) != 3:
-        raise ValueError("Images must be a sequence or array of 3 dimensional arrays (H, W, C).")
-    if len(labels) != dataset_len:
-        raise ValueError(f"Number of labels ({len(labels)}) does not match number of images ({dataset_len}).")
-    if bboxes is not None and len(bboxes) != dataset_len:
-        raise ValueError(f"Number of bboxes ({len(bboxes)}) does not match number of images ({dataset_len}).")
-    if metadata is not None and (
-        len(metadata) != dataset_len
-        if isinstance(metadata, Sequence)
-        else any(
-            not isinstance(metadatum, Sequence) or len(metadatum) != dataset_len for metadatum in metadata.values()
-        )
-    ):
-        raise ValueError(f"Number of metadata ({len(metadata)}) does not match number of images ({dataset_len}).")
-    if datum_type == "ic":
-        if not isinstance(labels, (Sequence, Array)) or not isinstance(labels[0], (int, SupportsInt)):
-            raise TypeError("Labels must be a sequence of integers for image classification.")
-    elif datum_type == "od":
-        if (
-            not isinstance(labels, (Sequence, Array))
-            or not isinstance(labels[0], (Sequence, Array))
-            or not isinstance(cast(Sequence[Any], labels[0])[0], (int, SupportsInt))
-        ):
-            raise TypeError("Labels must be a sequence of sequences of integers for object detection.")
-        if (
-            bboxes is None
-            or not isinstance(bboxes, (Sequence, Array))
-            or not isinstance(bboxes[0], (Sequence, Array))
-            or not isinstance(bboxes[0][0], (Sequence, Array))
-            or not isinstance(bboxes[0][0][0], (float, SupportsFloat))
-            or not len(bboxes[0][0]) == 4
-        ):
-            raise TypeError("Boxes must be a sequence of sequences of (x0, y0, x1, y1) for object detection.")
-    else:
-        raise ValueError(f"Unknown datum type '{datum_type}'. Must be 'ic' or 'od'.")
-def _listify_metadata(
-    metadata: Sequence[dict[str, Any]] | dict[str, Sequence[Any]] | None,
-) -> Sequence[dict[str, Any]] | None:
-    if isinstance(metadata, dict):
-        return [{k: v[i] for k, v in metadata.items()} for i in range(len(next(iter(metadata.values()))))]
-    return metadata
-def _find_max(arr: ArrayLike) -> Any:
-    if not isinstance(arr, (bytes, str)) and isinstance(arr, (Iterable, Sequence, Array)):
-        nested = [x for x in [_find_max(x) for x in arr] if x is not None]
-        return max(nested) if len(nested) > 0 else None
-    return arr
-_TLabels = TypeVar("_TLabels", Sequence[int], Sequence[Sequence[int]])
-class BaseAnnotatedDataset(Generic[_TLabels]):
-    def __init__(
-        self,
-        datum_type: Literal["ic", "od"],
-        images: Array | Sequence[Array],
-        labels: _TLabels,
-        metadata: Sequence[dict[str, Any]] | None,
-        classes: Sequence[str] | None,
-        name: str | None = None,
-    ) -> None:
-        self._classes = classes if classes is not None else [str(i) for i in range(_find_max(labels) + 1)]
-        self._index2label = dict(enumerate(self._classes))
-        self._images = images
-        self._labels = labels
-        self._metadata = metadata
-        self._id = name or f"{len(self._images)}_image_{len(self._index2label)}_class_{datum_type}_dataset"
-    @property
-    def metadata(self) -> DatasetMetadata:
-        return DatasetMetadata(id=self._id, index2label=self._index2label)
-    def __len__(self) -> int:
-        return len(self._images)
-class CustomImageClassificationDataset(BaseAnnotatedDataset[Sequence[int]], ImageClassificationDataset):
-    def __init__(
-        self,
-        images: Array | Sequence[Array],
-        labels: Array | Sequence[int],
-        metadata: Sequence[dict[str, Any]] | None,
-        classes: Sequence[str] | None,
-        name: str | None = None,
-    ) -> None:
-        super().__init__(
-            "ic", images, as_numpy(labels).tolist() if isinstance(labels, Array) else labels, metadata, classes
-        )
-        if name is not None:
-            self.__name__ = name
-            self.__class__.__name__ = name
-            self.__class__.__qualname__ = name
-    def __getitem__(self, idx: int, /) -> tuple[Array, Array, dict[str, Any]]:
-        one_hot = [0.0] * len(self._index2label)
-        one_hot[self._labels[idx]] = 1.0
-        return (
-            self._images[idx],
-            as_numpy(one_hot),
-            _ensure_id(idx, self._metadata[idx] if self._metadata is not None else {}),
-        )
-class CustomObjectDetectionDataset(BaseAnnotatedDataset[Sequence[Sequence[int]]], ObjectDetectionDataset):
-    class ObjectDetectionTarget:
-        def __init__(self, labels: Sequence[int], bboxes: Sequence[Sequence[float]], class_count: int) -> None:
-            self._labels = labels
-            self._bboxes = bboxes
-            one_hot = [[0.0] * class_count] * len(labels)
-            for i, label in enumerate(labels):
-                one_hot[i][label] = 1.0
-            self._scores = one_hot
-        @property
-        def labels(self) -> Sequence[int]:
-            return self._labels
-        @property
-        def boxes(self) -> Sequence[Sequence[float]]:
-            return self._bboxes
-        @property
-        def scores(self) -> Sequence[Sequence[float]]:
-            return self._scores
-    def __init__(
-        self,
-        images: Array | Sequence[Array],
-        labels: Array | Sequence[Array] | Sequence[Sequence[int]],
-        bboxes: Array | Sequence[Array] | Sequence[Sequence[Array]] | Sequence[Sequence[Sequence[float]]],
-        metadata: Sequence[dict[str, Any]] | None,
-        classes: Sequence[str] | None,
-        name: str | None = None,
-    ) -> None:
-        super().__init__(
-            "od",
-            images,
-            [as_numpy(label).tolist() if isinstance(label, Array) else label for label in labels],
-            metadata,
-            classes,
-        )
-        if name is not None:
-            self.__name__ = name
-            self.__class__.__name__ = name
-            self.__class__.__qualname__ = name
-        self._bboxes = [[as_numpy(box).tolist() if isinstance(box, Array) else box for box in bbox] for bbox in bboxes]
-    @property
-    def metadata(self) -> DatasetMetadata:
-        return DatasetMetadata(id=self._id, index2label=self._index2label)
-    def __getitem__(self, idx: int, /) -> tuple[Array, ObjectDetectionTarget, dict[str, Any]]:
-        return (
-            self._images[idx],
-            self.ObjectDetectionTarget(self._labels[idx], self._bboxes[idx], len(self._classes)),
-            _ensure_id(idx, self._metadata[idx] if self._metadata is not None else {}),
-        )
-def to_image_classification_dataset(
-    images: Array | Sequence[Array],
-    labels: Array | Sequence[int],
-    metadata: Sequence[dict[str, Any]] | dict[str, Sequence[Any]] | None,
-    classes: Sequence[str] | None,
-    name: str | None = None,
-) -> ImageClassificationDataset:
-    """
-    Helper function to create custom ImageClassificationDataset classes.
-    Parameters
-    ----------
-    images : Array | Sequence[Array]
-        The images to use in the dataset.
-    labels : Array | Sequence[int]
-        The labels to use in the dataset.
-    metadata : Sequence[dict[str, Any]] | dict[str, Sequence[Any]] | None
-        The metadata to use in the dataset.
-    classes : Sequence[str] | None
-        The classes to use in the dataset.
-    Returns
-    -------
-    ImageClassificationDataset
-    """
-    _validate_data("ic", images, labels, None, metadata)
-    return CustomImageClassificationDataset(images, labels, _listify_metadata(metadata), classes, name)
-def to_object_detection_dataset(
-    images: Array | Sequence[Array],
-    labels: Array | Sequence[Array] | Sequence[Sequence[int]],
-    bboxes: Array | Sequence[Array] | Sequence[Sequence[Array]] | Sequence[Sequence[Sequence[float]]],
-    metadata: Sequence[dict[str, Any]] | dict[str, Sequence[Any]] | None,
-    classes: Sequence[str] | None,
-    name: str | None = None,
-) -> ObjectDetectionDataset:
-    """
-    Helper function to create custom ObjectDetectionDataset classes.
-    Parameters
-    ----------
-    images : Array | Sequence[Array]
-        The images to use in the dataset.
-    labels : Array | Sequence[Array] | Sequence[Sequence[int]]
-        The labels to use in the dataset.
-    bboxes : Array | Sequence[Array] | Sequence[Sequence[Array]] | Sequence[Sequence[Sequence[float]]]
-        The bounding boxes (x0,y0,x1,y0) to use in the dataset.
-    metadata : Sequence[dict[str, Any]] | dict[str, Sequence[Any]] | None
-        The metadata to use in the dataset.
-    classes : Sequence[str] | None
-        The classes to use in the dataset.
-    Returns
-    -------
-    ObjectDetectionDataset
-    """
-    _validate_data("od", images, labels, bboxes, metadata)
-    return CustomObjectDetectionDataset(images, labels, bboxes, _listify_metadata(metadata), classes, name)

dataeval 0.87.0__py3-none-any.whl → 0.88.0__py3-none-any.whl

dataeval 0.87.0py3-none-any.whl → 0.88.0py3-none-any.whl