PyPI - kaiko-eva - Versions diffs - 0.3.3__py3-none-any.whl → 0.4.1__py3-none-any.whl - Mend

kaiko-eva 0.3.3py3-none-any.whl → 0.4.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of kaiko-eva might be problematic. Click here for more details.

Files changed (131) hide show

eva/core/callbacks/config.py +15 -6
eva/core/callbacks/writers/embeddings/base.py +44 -10
eva/core/cli/setup.py +1 -1
eva/core/data/dataloaders/__init__.py +1 -2
eva/core/data/samplers/classification/balanced.py +24 -12
eva/core/data/samplers/random.py +17 -10
eva/core/interface/interface.py +21 -0
eva/core/loggers/utils/wandb.py +4 -1
eva/core/models/modules/module.py +2 -2
eva/core/models/wrappers/base.py +2 -2
eva/core/models/wrappers/from_function.py +3 -3
eva/core/models/wrappers/from_torchhub.py +9 -7
eva/core/models/wrappers/huggingface.py +4 -5
eva/core/models/wrappers/onnx.py +5 -5
eva/core/trainers/trainer.py +13 -1
eva/core/utils/__init__.py +2 -1
eva/core/utils/distributed.py +12 -0
eva/core/utils/paths.py +14 -0
eva/core/utils/requirements.py +52 -6
eva/language/__init__.py +2 -1
eva/language/callbacks/__init__.py +5 -0
eva/language/callbacks/writers/__init__.py +5 -0
eva/language/callbacks/writers/prediction.py +201 -0
eva/language/data/dataloaders/__init__.py +5 -0
eva/language/data/dataloaders/collate_fn/__init__.py +5 -0
eva/language/data/dataloaders/collate_fn/text.py +57 -0
eva/language/data/datasets/__init__.py +3 -1
eva/language/data/datasets/{language.py → base.py} +1 -1
eva/language/data/datasets/classification/base.py +3 -43
eva/language/data/datasets/classification/pubmedqa.py +36 -4
eva/language/data/datasets/prediction.py +151 -0
eva/language/data/datasets/schemas.py +18 -0
eva/language/data/datasets/text.py +92 -0
eva/language/data/datasets/typings.py +39 -0
eva/language/data/messages.py +60 -0
eva/language/models/__init__.py +15 -11
eva/language/models/modules/__init__.py +2 -2
eva/language/models/modules/language.py +94 -0
eva/language/models/networks/__init__.py +12 -0
eva/language/models/networks/alibaba.py +26 -0
eva/language/models/networks/api/__init__.py +11 -0
eva/language/models/networks/api/anthropic.py +34 -0
eva/language/models/networks/registry.py +5 -0
eva/language/models/typings.py +56 -0
eva/language/models/wrappers/__init__.py +13 -5
eva/language/models/wrappers/base.py +47 -0
eva/language/models/wrappers/from_registry.py +54 -0
eva/language/models/wrappers/huggingface.py +57 -11
eva/language/models/wrappers/litellm.py +91 -46
eva/language/models/wrappers/vllm.py +37 -13
eva/language/utils/__init__.py +2 -1
eva/language/utils/str_to_int_tensor.py +20 -12
eva/language/utils/text/__init__.py +5 -0
eva/language/utils/text/messages.py +113 -0
eva/multimodal/__init__.py +6 -0
eva/multimodal/callbacks/__init__.py +5 -0
eva/multimodal/callbacks/writers/__init__.py +5 -0
eva/multimodal/callbacks/writers/prediction.py +39 -0
eva/multimodal/data/__init__.py +5 -0
eva/multimodal/data/dataloaders/__init__.py +5 -0
eva/multimodal/data/dataloaders/collate_fn/__init__.py +5 -0
eva/multimodal/data/dataloaders/collate_fn/text_image.py +28 -0
eva/multimodal/data/datasets/__init__.py +6 -0
eva/multimodal/data/datasets/base.py +13 -0
eva/multimodal/data/datasets/multiple_choice/__init__.py +5 -0
eva/multimodal/data/datasets/multiple_choice/patch_camelyon.py +80 -0
eva/multimodal/data/datasets/schemas.py +14 -0
eva/multimodal/data/datasets/text_image.py +77 -0
eva/multimodal/data/datasets/typings.py +27 -0
eva/multimodal/models/__init__.py +8 -0
eva/multimodal/models/modules/__init__.py +5 -0
eva/multimodal/models/modules/vision_language.py +56 -0
eva/multimodal/models/networks/__init__.py +14 -0
eva/multimodal/models/networks/alibaba.py +40 -0
eva/multimodal/models/networks/api/__init__.py +11 -0
eva/multimodal/models/networks/api/anthropic.py +34 -0
eva/multimodal/models/networks/others.py +48 -0
eva/multimodal/models/networks/registry.py +5 -0
eva/multimodal/models/typings.py +27 -0
eva/multimodal/models/wrappers/__init__.py +13 -0
eva/multimodal/models/wrappers/base.py +48 -0
eva/multimodal/models/wrappers/from_registry.py +54 -0
eva/multimodal/models/wrappers/huggingface.py +193 -0
eva/multimodal/models/wrappers/litellm.py +58 -0
eva/multimodal/utils/__init__.py +1 -0
eva/multimodal/utils/batch/__init__.py +5 -0
eva/multimodal/utils/batch/unpack.py +11 -0
eva/multimodal/utils/image/__init__.py +5 -0
eva/multimodal/utils/image/encode.py +28 -0
eva/multimodal/utils/text/__init__.py +1 -0
eva/multimodal/utils/text/messages.py +79 -0
eva/vision/data/datasets/classification/breakhis.py +5 -8
eva/vision/data/datasets/classification/panda.py +12 -5
eva/vision/data/datasets/classification/patch_camelyon.py +8 -6
eva/vision/data/datasets/segmentation/btcv.py +1 -1
eva/vision/data/datasets/segmentation/consep.py +1 -1
eva/vision/data/datasets/segmentation/lits17.py +1 -1
eva/vision/data/datasets/segmentation/monusac.py +15 -6
eva/vision/data/datasets/segmentation/msd_task7_pancreas.py +1 -1
eva/vision/data/transforms/__init__.py +2 -1
eva/vision/data/transforms/base/__init__.py +2 -1
eva/vision/data/transforms/base/monai.py +2 -2
eva/vision/data/transforms/base/torchvision.py +33 -0
eva/vision/data/transforms/common/squeeze.py +6 -3
eva/vision/data/transforms/croppad/crop_foreground.py +8 -7
eva/vision/data/transforms/croppad/rand_crop_by_label_classes.py +6 -5
eva/vision/data/transforms/croppad/rand_crop_by_pos_neg_label.py +6 -5
eva/vision/data/transforms/croppad/rand_spatial_crop.py +8 -7
eva/vision/data/transforms/croppad/spatial_pad.py +6 -6
eva/vision/data/transforms/intensity/rand_scale_intensity.py +3 -3
eva/vision/data/transforms/intensity/rand_shift_intensity.py +3 -3
eva/vision/data/transforms/intensity/scale_intensity_ranged.py +5 -5
eva/vision/data/transforms/spatial/__init__.py +2 -1
eva/vision/data/transforms/spatial/flip.py +8 -7
eva/vision/data/transforms/spatial/functional/__init__.py +5 -0
eva/vision/data/transforms/spatial/functional/resize.py +26 -0
eva/vision/data/transforms/spatial/resize.py +63 -0
eva/vision/data/transforms/spatial/rotate.py +8 -7
eva/vision/data/transforms/spatial/spacing.py +7 -6
eva/vision/data/transforms/utility/ensure_channel_first.py +6 -6
eva/vision/models/networks/backbones/universal/vit.py +24 -0
eva/vision/models/wrappers/from_registry.py +6 -5
eva/vision/models/wrappers/from_timm.py +6 -4
{kaiko_eva-0.3.3.dist-info → kaiko_eva-0.4.1.dist-info}/METADATA +17 -3
{kaiko_eva-0.3.3.dist-info → kaiko_eva-0.4.1.dist-info}/RECORD +128 -66
eva/core/data/dataloaders/collate_fn/__init__.py +0 -5
eva/core/data/dataloaders/collate_fn/collate.py +0 -24
eva/language/models/modules/text.py +0 -85
{kaiko_eva-0.3.3.dist-info → kaiko_eva-0.4.1.dist-info}/WHEEL +0 -0
{kaiko_eva-0.3.3.dist-info → kaiko_eva-0.4.1.dist-info}/entry_points.txt +0 -0
{kaiko_eva-0.3.3.dist-info → kaiko_eva-0.4.1.dist-info}/licenses/LICENSE +0 -0

eva/vision/data/transforms/base/monai.py CHANGED Viewed

@@ -2,10 +2,10 @@
 import abc
-from torchvision.transforms import v2
+from eva.vision.data.transforms.base.torchvision import TorchvisionTransformV2
-class RandomMonaiTransform(v2.Transform, abc.ABC):
+class RandomMonaiTransform(TorchvisionTransformV2, abc.ABC):
     """Base class for MONAI transform wrappers."""
     @abc.abstractmethod

eva/vision/data/transforms/base/torchvision.py ADDED Viewed

@@ -0,0 +1,33 @@
+"""Base class for torchvision.v2 transforms."""
+import abc
+from typing import Any, Dict, List
+from torchvision.transforms import v2
+class TorchvisionTransformV2(v2.Transform, abc.ABC):
+    """Wrapper for torchvision.v2.Transform.
+    This class ensures compatibility both with >=0.21.0 and older versions,
+    as torchvision 0.21.0 introduced a new transform API where they
+    renamed the following methods:
+    - `_get_params` -> `make_params`
+    - `_transform` -> `transform`
+    """
+    def make_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
+        """Called internally before calling transform() on each input."""
+        return {}
+    def _get_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
+        return self.make_params(flat_inputs)
+    @abc.abstractmethod
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+        """Applies the transformation to the input."""
+        raise NotImplementedError
+    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+        return self.transform(inpt, params)

eva/vision/data/transforms/common/squeeze.py CHANGED Viewed

@@ -4,10 +4,12 @@ from typing import Any
 import torch
 from torchvision import tv_tensors
-from torchvision.transforms import v2
+from typing_extensions import override
+from eva.vision.data.transforms import base
-class Squeeze(v2.Transform):
+class Squeeze(base.TorchvisionTransformV2):
     """Squeezes the input tensor accross all or specified dimensions."""
     def __init__(self, dim: int | list[int] | None = None):
@@ -19,6 +21,7 @@ class Squeeze(v2.Transform):
         super().__init__()
         self._dim = dim
-    def _transform(self, inpt: Any, params: dict[str, Any]) -> Any:
+    @override
+    def transform(self, inpt: Any, params: dict[str, Any]) -> Any:
         output = torch.squeeze(inpt) if self._dim is None else torch.squeeze(inpt, dim=self._dim)
         return tv_tensors.wrap(output, like=inpt)

eva/vision/data/transforms/croppad/crop_foreground.py CHANGED Viewed

@@ -8,13 +8,13 @@ from monai.config import type_definitions
 from monai.transforms.croppad import array as monai_croppad_transforms
 from monai.utils.enums import PytorchPadMode
 from torchvision import tv_tensors
-from torchvision.transforms import v2
 from typing_extensions import override
 from eva.vision.data import tv_tensors as eva_tv_tensors
+from eva.vision.data.transforms import base
-class CropForeground(v2.Transform):
+class CropForeground(base.TorchvisionTransformV2):
     """Crop an image using a bounding box.
     The bounding box is generated by selecting foreground using select_fn
@@ -74,19 +74,20 @@ class CropForeground(v2.Transform):
             **pad_kwargs,
         )
-    def _get_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
+    @override
+    def make_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
         volume = next(inpt for inpt in flat_inputs if isinstance(inpt, eva_tv_tensors.Volume))
         box_start, box_end = self._foreground_crop.compute_bounding_box(volume)
         return {"box_start": box_start, "box_end": box_end}
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(tv_tensors.Image)
-    @_transform.register(eva_tv_tensors.Volume)
-    @_transform.register(tv_tensors.Mask)
+    @transform.register(tv_tensors.Image)
+    @transform.register(eva_tv_tensors.Volume)
+    @transform.register(tv_tensors.Mask)
     def _(self, inpt: Any, params: Dict[str, Any]) -> Any:
         inpt_foreground_cropped = self._foreground_crop.crop_pad(
             inpt, params["box_start"], params["box_end"]

eva/vision/data/transforms/croppad/rand_crop_by_label_classes.py CHANGED Viewed

@@ -56,19 +56,20 @@ class RandCropByLabelClasses(base.RandomMonaiTransform):
     def set_random_state(self, seed: int) -> None:
         self._rand_crop.set_random_state(seed)
-    def _get_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
+    @override
+    def make_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
         mask = next(inpt for inpt in flat_inputs if isinstance(inpt, tv_tensors.Mask))
         self._rand_crop.randomize(label=mask)
         return {}
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(tv_tensors.Image)
-    @_transform.register(eva_tv_tensors.Volume)
-    @_transform.register(tv_tensors.Mask)
+    @transform.register(tv_tensors.Image)
+    @transform.register(eva_tv_tensors.Volume)
+    @transform.register(tv_tensors.Mask)
     def _(self, inpt: Any, params: Dict[str, Any]) -> Any:
         inpt_foreground_crops = self._rand_crop(img=inpt, randomize=False)
         return [tv_tensors.wrap(crop, like=inpt) for crop in inpt_foreground_crops]

eva/vision/data/transforms/croppad/rand_crop_by_pos_neg_label.py CHANGED Viewed

@@ -95,19 +95,20 @@ class RandCropByPosNegLabel(base.RandomMonaiTransform):
     def set_random_state(self, seed: int) -> None:
         self._rand_crop.set_random_state(seed)
-    def _get_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
+    @override
+    def make_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
         mask = next(inpt for inpt in flat_inputs if isinstance(inpt, tv_tensors.Mask))
         self._rand_crop.randomize(label=mask)
         return {}
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(tv_tensors.Image)
-    @_transform.register(eva_tv_tensors.Volume)
-    @_transform.register(tv_tensors.Mask)
+    @transform.register(tv_tensors.Image)
+    @transform.register(eva_tv_tensors.Volume)
+    @transform.register(tv_tensors.Mask)
     def _(self, inpt: Any, params: Dict[str, Any]) -> Any:
         inpt_foreground_crops = self._rand_crop(img=inpt, randomize=False)
         return [tv_tensors.wrap(crop, like=inpt) for crop in inpt_foreground_crops]

eva/vision/data/transforms/croppad/rand_spatial_crop.py CHANGED Viewed

@@ -5,14 +5,14 @@ from typing import Any, Dict, List, Sequence, Tuple
 from monai.transforms.croppad import array as monai_croppad_transforms
 from torchvision import tv_tensors
-from torchvision.transforms import v2
 from torchvision.transforms.v2 import _utils as tv_utils
 from typing_extensions import override
 from eva.vision.data import tv_tensors as eva_tv_tensors
+from eva.vision.data.transforms import base
-class RandSpatialCrop(v2.Transform):
+class RandSpatialCrop(base.TorchvisionTransformV2):
     """Crop image with random size or specific size ROI.
     It can crop at a random position as center or at the image center.
@@ -62,19 +62,20 @@ class RandSpatialCrop(v2.Transform):
         """Set the random state for the transform."""
         self._rand_spatial_crop.set_random_state(seed)
-    def _get_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
+    @override
+    def make_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
         t, h, w = tv_utils.query_chw(flat_inputs)
         self._rand_spatial_crop.randomize((t, h, w))
         return {}
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(tv_tensors.Image)
-    @_transform.register(eva_tv_tensors.Volume)
-    @_transform.register(tv_tensors.Mask)
+    @transform.register(tv_tensors.Image)
+    @transform.register(eva_tv_tensors.Volume)
+    @transform.register(tv_tensors.Mask)
     def _(self, inpt: Any, params: Dict[str, Any]) -> Any:
         slices = self._get_crop_slices()
         inpt_rand_crop = self._cropper(inpt, slices=slices)

eva/vision/data/transforms/croppad/spatial_pad.py CHANGED Viewed

@@ -6,13 +6,13 @@ from typing import Any, Dict, Sequence
 from monai.transforms.croppad import array as monai_croppad_transforms
 from monai.utils.enums import Method, PytorchPadMode
 from torchvision import tv_tensors
-from torchvision.transforms import v2
 from typing_extensions import override
 from eva.vision.data import tv_tensors as eva_tv_tensors
+from eva.vision.data.transforms import base
-class SpatialPad(v2.Transform):
+class SpatialPad(base.TorchvisionTransformV2):
     """Performs padding to the data.
     Padding is applied symmetric for all sides or all on one side for each dimension.
@@ -56,12 +56,12 @@ class SpatialPad(v2.Transform):
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(tv_tensors.Image)
-    @_transform.register(eva_tv_tensors.Volume)
-    @_transform.register(tv_tensors.Mask)
+    @transform.register(tv_tensors.Image)
+    @transform.register(eva_tv_tensors.Volume)
+    @transform.register(tv_tensors.Mask)
     def _(self, inpt: Any, params: Dict[str, Any]) -> Any:
         inpt_padded = self._spatial_pad(inpt)
         return tv_tensors.wrap(inpt_padded, like=inpt)

eva/vision/data/transforms/intensity/rand_scale_intensity.py CHANGED Viewed

@@ -53,11 +53,11 @@ class RandScaleIntensity(base.RandomMonaiTransform):
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(tv_tensors.Image)
-    @_transform.register(eva_tv_tensors.Volume)
+    @transform.register(tv_tensors.Image)
+    @transform.register(eva_tv_tensors.Volume)
     def _(self, inpt: tv_tensors.Image, params: Dict[str, Any]) -> Any:
         inpt_scaled = self._rand_scale_intensity(inpt)
         return tv_tensors.wrap(inpt_scaled, like=inpt)

eva/vision/data/transforms/intensity/rand_shift_intensity.py CHANGED Viewed

@@ -49,11 +49,11 @@ class RandShiftIntensity(base.RandomMonaiTransform):
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(tv_tensors.Image)
-    @_transform.register(eva_tv_tensors.Volume)
+    @transform.register(tv_tensors.Image)
+    @transform.register(eva_tv_tensors.Volume)
     def _(self, inpt: tv_tensors.Image, params: Dict[str, Any]) -> Any:
         inpt_scaled = self._rand_shift_intensity(inpt)
         return tv_tensors.wrap(inpt_scaled, like=inpt)

eva/vision/data/transforms/intensity/scale_intensity_ranged.py CHANGED Viewed

@@ -5,13 +5,13 @@ from typing import Any, Dict, Tuple
 from monai.transforms.intensity import array as monai_intensity_transforms
 from torchvision import tv_tensors
-from torchvision.transforms import v2
 from typing_extensions import override
 from eva.vision.data import tv_tensors as eva_tv_tensors
+from eva.vision.data.transforms import base
-class ScaleIntensityRange(v2.Transform):
+class ScaleIntensityRange(base.TorchvisionTransformV2):
     """Intensity scaling transform.
     Scaling from [a_min, a_max] to [b_min, b_max] with clip option.
@@ -46,11 +46,11 @@ class ScaleIntensityRange(v2.Transform):
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(tv_tensors.Image)
-    @_transform.register(eva_tv_tensors.Volume)
+    @transform.register(tv_tensors.Image)
+    @transform.register(eva_tv_tensors.Volume)
     def _(self, inpt: tv_tensors.Image, params: Dict[str, Any]) -> Any:
         inpt_scaled = self._scale_intensity_range(inpt)
         return tv_tensors.wrap(inpt_scaled, like=inpt)

eva/vision/data/transforms/spatial/__init__.py CHANGED Viewed

@@ -1,7 +1,8 @@
 """Transforms for spatial operations."""
 from eva.vision.data.transforms.spatial.flip import RandFlip
+from eva.vision.data.transforms.spatial.resize import Resize
 from eva.vision.data.transforms.spatial.rotate import RandRotate90
 from eva.vision.data.transforms.spatial.spacing import Spacing
-__all__ = ["Spacing", "RandFlip", "RandRotate90"]
+__all__ = ["Spacing", "RandFlip", "RandRotate90", "Resize"]

eva/vision/data/transforms/spatial/flip.py CHANGED Viewed

@@ -6,13 +6,13 @@ from typing import Any, Dict, List, Sequence
 import torch
 from monai.transforms.spatial import array as monai_spatial_transforms
 from torchvision import tv_tensors
-from torchvision.transforms import v2
 from typing_extensions import override
 from eva.vision.data import tv_tensors as eva_tv_tensors
+from eva.vision.data.transforms import base
-class RandFlip(v2.Transform):
+class RandFlip(base.TorchvisionTransformV2):
     """Randomly flips the image along axes."""
     def __init__(
@@ -45,23 +45,24 @@ class RandFlip(v2.Transform):
         else:
             self._flips = [monai_spatial_transforms.RandFlip(prob=prob, spatial_axis=spatial_axes)]
-    def _get_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
+    @override
+    def make_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
         for flip in self._flips:
             flip.randomize(None)
         return {}
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(tv_tensors.Image)
-    @_transform.register(eva_tv_tensors.Volume)
+    @transform.register(tv_tensors.Image)
+    @transform.register(eva_tv_tensors.Volume)
     def _(self, inpt: Any, params: Dict[str, Any]) -> Any:
         inpt_flipped = self._apply_flips(inpt)
         return tv_tensors.wrap(inpt_flipped, like=inpt)
-    @_transform.register(tv_tensors.Mask)
+    @transform.register(tv_tensors.Mask)
     def _(self, inpt: Any, params: Dict[str, Any]) -> Any:
         inpt_flipped = torch.tensor(self._apply_flips(inpt), dtype=torch.long)
         return tv_tensors.wrap(inpt_flipped, like=inpt)

eva/vision/data/transforms/spatial/functional/__init__.py ADDED Viewed

@@ -0,0 +1,5 @@
+"""Functional API for spatial transforms."""
+from eva.vision.data.transforms.spatial.functional.resize import resize_to_max_bytes
+__all__ = ["resize_to_max_bytes"]

eva/vision/data/transforms/spatial/functional/resize.py ADDED Viewed

@@ -0,0 +1,26 @@
+"""Functional resizing utilities."""
+import io
+from typing import Tuple
+from PIL import Image
+from torchvision import tv_tensors
+from torchvision.transforms.v2 import functional as F
+def resize_to_max_bytes(image: tv_tensors.Image, max_bytes: int) -> tv_tensors.Image:
+    """Resize the image to fit within the specified byte size."""
+    image_pil = F.to_pil_image(image)
+    image_bytes = io.BytesIO()
+    image_pil.save(image_bytes, format="PNG", optimize=True)
+    while image_bytes.tell() > max_bytes:
+        size: Tuple[int, int] = image_pil.size  # type: ignore
+        w, h = size
+        scale = (max_bytes / image_bytes.tell()) ** 0.5
+        new_size = (max(1, int(h * scale)), max(1, int(w * scale)))
+        image_pil = image_pil.resize(new_size, Image.Resampling.LANCZOS)
+        image_bytes = io.BytesIO()
+        image_pil.save(image_bytes, format="PNG", optimize=True)
+    return tv_tensors.Image(F.pil_to_tensor(image_pil))

eva/vision/data/transforms/spatial/resize.py ADDED Viewed

@@ -0,0 +1,63 @@
+"""Image resize transforms."""
+import functools
+from typing import Any, Dict
+from torchvision import tv_tensors
+from torchvision.transforms import v2
+from typing_extensions import override
+from eva.vision.data.transforms import base
+from eva.vision.data.transforms.spatial import functional
+class Resize(base.TorchvisionTransformV2):
+    """Resize transform for images with spatial or byte-based constraints.
+    This transform provides two mutually exclusive modes of resizing:
+    1. Spatial resizing: Resize to a specific (height, width) dimension
+    2. Byte-based resizing: Resize to fit within a maximum byte size
+    The latter is particularly useful for API models (e.g. Claude 3.7) that
+    have strict byte size limits for image inputs.
+    """
+    def __init__(self, size: tuple[int, int] | None = None, max_bytes: int | None = None) -> None:
+        """Initializes the transform.
+        Args:
+            size: Target size as (height, width) tuple for spatial resizing.
+                If provided, max_bytes must be None.
+            max_bytes: Maximum allowed byte size for the image.
+                If provided, size must be None. Must be a positive integer.
+        Raises:
+            ValueError: If both size and max_bytes are provided, or if max_bytes
+                is not a positive integer.
+        """
+        if size is not None and max_bytes is not None:
+            raise ValueError("Cannot provide both 'size' and 'max_bytes' parameters.")
+        if max_bytes is not None and max_bytes <= 0:
+            raise ValueError("'max_bytes' must be a positive integer.")
+        super().__init__()
+        self.size = size
+        self.max_bytes = max_bytes
+        self.resize_fn = None
+        if size is not None:
+            self.resize_fn = v2.Resize(size=size)
+        elif max_bytes is not None:
+            self.resize_fn = functools.partial(functional.resize_to_max_bytes, max_bytes=max_bytes)
+    @functools.singledispatchmethod
+    @override
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+        return inpt
+    @transform.register(tv_tensors.Image)
+    @transform.register(tv_tensors.Mask)
+    def _(self, inpt: Any, params: Dict[str, Any]) -> Any:
+        inpt_resized = self.resize_fn(inpt) if self.resize_fn is not None else inpt
+        return tv_tensors.wrap(inpt_resized, like=inpt)

eva/vision/data/transforms/spatial/rotate.py CHANGED Viewed

@@ -5,13 +5,13 @@ from typing import Any, Dict, List
 from monai.transforms.spatial import array as monai_spatial_transforms
 from torchvision import tv_tensors
-from torchvision.transforms import v2
 from typing_extensions import override
 from eva.vision.data import tv_tensors as eva_tv_tensors
+from eva.vision.data.transforms import base
-class RandRotate90(v2.Transform):
+class RandRotate90(base.TorchvisionTransformV2):
     """Rotate input tensors by 90 degrees."""
     def __init__(
@@ -36,18 +36,19 @@ class RandRotate90(v2.Transform):
             prob=prob, max_k=max_k, spatial_axes=spatial_axes
         )
-    def _get_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
+    @override
+    def make_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
         self._rotate.randomize()
         return {}
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(tv_tensors.Image)
-    @_transform.register(eva_tv_tensors.Volume)
-    @_transform.register(tv_tensors.Mask)
+    @transform.register(tv_tensors.Image)
+    @transform.register(eva_tv_tensors.Volume)
+    @transform.register(tv_tensors.Mask)
     def _(self, inpt: Any, params: Dict[str, Any]) -> Any:
         inpt_rotated = self._rotate(img=inpt, randomize=False)
         return tv_tensors.wrap(inpt_rotated, like=inpt)

eva/vision/data/transforms/spatial/spacing.py CHANGED Viewed

@@ -8,13 +8,13 @@ import torch
 from monai.data import meta_tensor
 from monai.transforms.spatial import array as monai_spatial_transforms
 from torchvision import tv_tensors
-from torchvision.transforms import v2
 from typing_extensions import override
 from eva.vision.data import tv_tensors as eva_tv_tensors
+from eva.vision.data.transforms import base
-class Spacing(v2.Transform):
+class Spacing(base.TorchvisionTransformV2):
     """Resample input image into the specified `pixdim`.
     - Expects tensors of shape `[C, T, H, W]`.
@@ -43,7 +43,8 @@ class Spacing(v2.Transform):
         self._spacing = monai_spatial_transforms.Spacing(pixdim=pixdim, recompute_affine=True)
         self._affine = None
-    def _get_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
+    @override
+    def make_params(self, flat_inputs: List[Any]) -> Dict[str, Any]:
         self._affine = next(
             inpt.affine for inpt in flat_inputs if isinstance(inpt, eva_tv_tensors.Volume)
         )
@@ -51,17 +52,17 @@ class Spacing(v2.Transform):
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(eva_tv_tensors.Volume)
+    @transform.register(eva_tv_tensors.Volume)
     def _(self, inpt: eva_tv_tensors.Volume, params: Dict[str, Any]) -> Any:
         inpt_spacing = self._spacing(inpt.to_meta_tensor(), mode="bilinear")
         if not isinstance(inpt_spacing, meta_tensor.MetaTensor):
             raise ValueError(f"Expected MetaTensor, got {type(inpt_spacing)}")
         return eva_tv_tensors.Volume.from_meta_tensor(inpt_spacing)
-    @_transform.register(tv_tensors.Mask)
+    @transform.register(tv_tensors.Mask)
     def _(self, inpt: Any, params: Dict[str, Any]) -> Any:
         inpt_spacing = self._spacing(
             meta_tensor.MetaTensor(inpt, affine=self._affine), mode="nearest"

eva/vision/data/transforms/utility/ensure_channel_first.py CHANGED Viewed

@@ -5,13 +5,13 @@ from typing import Any, Dict
 from monai.transforms.utility import array as monai_utility_transforms
 from torchvision import tv_tensors
-from torchvision.transforms import v2
 from typing_extensions import override
 from eva.vision.data import tv_tensors as eva_tv_tensors
+from eva.vision.data.transforms import base
-class EnsureChannelFirst(v2.Transform):
+class EnsureChannelFirst(base.TorchvisionTransformV2):
     """Adjust or add the channel dimension of input data to ensure `channel_first` shape."""
     def __init__(
@@ -40,12 +40,12 @@ class EnsureChannelFirst(v2.Transform):
     @functools.singledispatchmethod
     @override
-    def _transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
+    def transform(self, inpt: Any, params: Dict[str, Any]) -> Any:
         return inpt
-    @_transform.register(tv_tensors.Image)
-    @_transform.register(eva_tv_tensors.Volume)
-    @_transform.register(tv_tensors.Mask)
+    @transform.register(tv_tensors.Image)
+    @transform.register(eva_tv_tensors.Volume)
+    @transform.register(tv_tensors.Mask)
     def _(self, inpt: Any, params: Dict[str, Any]) -> Any:
         inpt_channel_first = self._ensure_channel_first(inpt)
         return tv_tensors.wrap(inpt_channel_first, like=inpt)

eva/vision/models/networks/backbones/universal/vit.py CHANGED Viewed

@@ -54,6 +54,30 @@ def vit_small_patch16_224_dino(
     )
+@backbone_registry.register("universal/vit_tiny_patch16_224_random")
+def vit_tiny_patch16_224_random(
+    dynamic_img_size: bool = True, out_indices: int | Tuple[int, ...] | None = None
+) -> nn.Module:
+    """Initializes a ViT-Tiny16 baseline model with random weights.
+    Args:
+        dynamic_img_size: Support different input image sizes by allowing to change
+            the grid size (interpolate abs and/or ROPE pos) in the forward pass.
+        out_indices: Whether and which multi-level patch embeddings to return.
+    Returns:
+        The torch ViTS-16 based foundation model.
+    """
+    return timm.create_model(
+        model_name="vit_tiny_patch16_224",
+        pretrained=False,
+        num_classes=0,
+        features_only=out_indices is not None,
+        out_indices=out_indices,
+        dynamic_img_size=dynamic_img_size,
+    )
 @backbone_registry.register("universal/vit_small_patch16_224_dino_1chan")
 def vit_small_patch16_224_dino_1chan(
     dynamic_img_size: bool = True, out_indices: int | Tuple[int, ...] | None = None

eva/vision/models/wrappers/from_registry.py CHANGED Viewed

@@ -3,6 +3,7 @@
 from typing import Any, Callable, Dict
 import torch
+from torch import nn
 from typing_extensions import override
 from eva.core.models.wrappers import base
@@ -40,14 +41,14 @@ class ModelFromRegistry(base.BaseModel[torch.Tensor, torch.Tensor]):
         self._model_kwargs = model_kwargs or {}
         self._model_extra_kwargs = model_extra_kwargs or {}
-        self.load_model()
+        self.model = self.load_model()
     @override
-    def load_model(self) -> None:
-        self._model = factory.ModuleFactory(
+    def load_model(self) -> nn.Module:
+        ModelFromRegistry.__name__ = self._model_name
+        return factory.ModuleFactory(
             registry=backbone_registry,
             name=self._model_name,
             init_args=self._model_kwargs | self._model_extra_kwargs,
         )
-        ModelFromRegistry.__name__ = self._model_name

kaiko-eva 0.3.3__py3-none-any.whl → 0.4.1__py3-none-any.whl

Potentially problematic release.

kaiko-eva 0.3.3py3-none-any.whl → 0.4.1py3-none-any.whl