PyPI - careamics - Versions diffs - 0.0.19__py3-none-any.whl - Mend

careamics 0.0.19__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (279) hide show

careamics/__init__.py +24 -0
careamics/careamist.py +961 -0
careamics/cli/__init__.py +5 -0
careamics/cli/conf.py +394 -0
careamics/cli/main.py +234 -0
careamics/cli/utils.py +27 -0
careamics/config/__init__.py +66 -0
careamics/config/algorithms/__init__.py +21 -0
careamics/config/algorithms/care_algorithm_config.py +122 -0
careamics/config/algorithms/hdn_algorithm_config.py +103 -0
careamics/config/algorithms/microsplit_algorithm_config.py +103 -0
careamics/config/algorithms/n2n_algorithm_config.py +115 -0
careamics/config/algorithms/n2v_algorithm_config.py +296 -0
careamics/config/algorithms/pn2v_algorithm_config.py +301 -0
careamics/config/algorithms/unet_algorithm_config.py +91 -0
careamics/config/algorithms/vae_algorithm_config.py +178 -0
careamics/config/architectures/__init__.py +7 -0
careamics/config/architectures/architecture_config.py +37 -0
careamics/config/architectures/lvae_config.py +262 -0
careamics/config/architectures/unet_config.py +125 -0
careamics/config/configuration.py +367 -0
careamics/config/configuration_factories.py +2400 -0
careamics/config/data/__init__.py +27 -0
careamics/config/data/data_config.py +472 -0
careamics/config/data/inference_config.py +237 -0
careamics/config/data/ng_data_config.py +1038 -0
careamics/config/data/patch_filter/__init__.py +15 -0
careamics/config/data/patch_filter/filter_config.py +16 -0
careamics/config/data/patch_filter/mask_filter_config.py +17 -0
careamics/config/data/patch_filter/max_filter_config.py +15 -0
careamics/config/data/patch_filter/meanstd_filter_config.py +18 -0
careamics/config/data/patch_filter/shannon_filter_config.py +15 -0
careamics/config/data/patching_strategies/__init__.py +15 -0
careamics/config/data/patching_strategies/_overlapping_patched_config.py +102 -0
careamics/config/data/patching_strategies/_patched_config.py +56 -0
careamics/config/data/patching_strategies/random_patching_config.py +45 -0
careamics/config/data/patching_strategies/sequential_patching_config.py +25 -0
careamics/config/data/patching_strategies/tiled_patching_config.py +40 -0
careamics/config/data/patching_strategies/whole_patching_config.py +12 -0
careamics/config/data/tile_information.py +65 -0
careamics/config/lightning/__init__.py +15 -0
careamics/config/lightning/callbacks/__init__.py +8 -0
careamics/config/lightning/callbacks/callback_config.py +116 -0
careamics/config/lightning/optimizer_configs.py +186 -0
careamics/config/lightning/training_config.py +70 -0
careamics/config/losses/__init__.py +8 -0
careamics/config/losses/loss_config.py +60 -0
careamics/config/ng_configs/__init__.py +5 -0
careamics/config/ng_configs/n2v_configuration.py +64 -0
careamics/config/ng_configs/ng_configuration.py +256 -0
careamics/config/ng_factories/__init__.py +9 -0
careamics/config/ng_factories/algorithm_factory.py +120 -0
careamics/config/ng_factories/data_factory.py +154 -0
careamics/config/ng_factories/n2v_factory.py +256 -0
careamics/config/ng_factories/training_factory.py +69 -0
careamics/config/noise_model/__init__.py +12 -0
careamics/config/noise_model/likelihood_config.py +60 -0
careamics/config/noise_model/noise_model_config.py +149 -0
careamics/config/support/__init__.py +31 -0
careamics/config/support/supported_activations.py +27 -0
careamics/config/support/supported_algorithms.py +40 -0
careamics/config/support/supported_architectures.py +13 -0
careamics/config/support/supported_data.py +122 -0
careamics/config/support/supported_filters.py +17 -0
careamics/config/support/supported_loggers.py +10 -0
careamics/config/support/supported_losses.py +32 -0
careamics/config/support/supported_optimizers.py +57 -0
careamics/config/support/supported_patching_strategies.py +22 -0
careamics/config/support/supported_pixel_manipulations.py +15 -0
careamics/config/support/supported_struct_axis.py +21 -0
careamics/config/support/supported_transforms.py +12 -0
careamics/config/transformations/__init__.py +22 -0
careamics/config/transformations/n2v_manipulate_config.py +79 -0
careamics/config/transformations/normalize_config.py +59 -0
careamics/config/transformations/transform_config.py +45 -0
careamics/config/transformations/transform_unions.py +29 -0
careamics/config/transformations/xy_flip_config.py +43 -0
careamics/config/transformations/xy_random_rotate90_config.py +35 -0
careamics/config/utils/__init__.py +8 -0
careamics/config/utils/configuration_io.py +85 -0
careamics/config/validators/__init__.py +18 -0
careamics/config/validators/axes_validators.py +90 -0
careamics/config/validators/model_validators.py +84 -0
careamics/config/validators/patch_validators.py +55 -0
careamics/conftest.py +39 -0
careamics/dataset/__init__.py +17 -0
careamics/dataset/dataset_utils/__init__.py +19 -0
careamics/dataset/dataset_utils/dataset_utils.py +118 -0
careamics/dataset/dataset_utils/file_utils.py +141 -0
careamics/dataset/dataset_utils/iterate_over_files.py +84 -0
careamics/dataset/dataset_utils/running_stats.py +189 -0
careamics/dataset/in_memory_dataset.py +303 -0
careamics/dataset/in_memory_pred_dataset.py +88 -0
careamics/dataset/in_memory_tiled_pred_dataset.py +131 -0
careamics/dataset/iterable_dataset.py +294 -0
careamics/dataset/iterable_pred_dataset.py +121 -0
careamics/dataset/iterable_tiled_pred_dataset.py +141 -0
careamics/dataset/patching/__init__.py +1 -0
careamics/dataset/patching/patching.py +300 -0
careamics/dataset/patching/random_patching.py +110 -0
careamics/dataset/patching/sequential_patching.py +212 -0
careamics/dataset/patching/validate_patch_dimension.py +64 -0
careamics/dataset/tiling/__init__.py +10 -0
careamics/dataset/tiling/collate_tiles.py +33 -0
careamics/dataset/tiling/lvae_tiled_patching.py +375 -0
careamics/dataset/tiling/tiled_patching.py +166 -0
careamics/dataset_ng/README.md +212 -0
careamics/dataset_ng/__init__.py +0 -0
careamics/dataset_ng/dataset.py +365 -0
careamics/dataset_ng/demos/bsd68_demo.ipynb +361 -0
careamics/dataset_ng/demos/bsd68_zarr_demo.ipynb +453 -0
careamics/dataset_ng/demos/care_U2OS_demo.ipynb +330 -0
careamics/dataset_ng/demos/demo_custom_image_stack.ipynb +736 -0
careamics/dataset_ng/demos/demo_datamodule.ipynb +447 -0
careamics/dataset_ng/demos/demo_dataset.ipynb +278 -0
careamics/dataset_ng/demos/demo_patch_extractor.py +51 -0
careamics/dataset_ng/demos/mouse_nuclei_demo.ipynb +293 -0
careamics/dataset_ng/factory.py +180 -0
careamics/dataset_ng/grouped_index_sampler.py +73 -0
careamics/dataset_ng/image_stack/__init__.py +14 -0
careamics/dataset_ng/image_stack/czi_image_stack.py +396 -0
careamics/dataset_ng/image_stack/file_image_stack.py +140 -0
careamics/dataset_ng/image_stack/image_stack_protocol.py +93 -0
careamics/dataset_ng/image_stack/image_utils/__init__.py +6 -0
careamics/dataset_ng/image_stack/image_utils/image_stack_utils.py +125 -0
careamics/dataset_ng/image_stack/in_memory_image_stack.py +93 -0
careamics/dataset_ng/image_stack/zarr_image_stack.py +170 -0
careamics/dataset_ng/image_stack_loader/__init__.py +19 -0
careamics/dataset_ng/image_stack_loader/image_stack_loader_protocol.py +70 -0
careamics/dataset_ng/image_stack_loader/image_stack_loaders.py +273 -0
careamics/dataset_ng/image_stack_loader/zarr_utils.py +130 -0
careamics/dataset_ng/legacy_interoperability.py +175 -0
careamics/dataset_ng/microsplit_input_synth.py +377 -0
careamics/dataset_ng/patch_extractor/__init__.py +7 -0
careamics/dataset_ng/patch_extractor/limit_file_extractor.py +50 -0
careamics/dataset_ng/patch_extractor/patch_construction.py +151 -0
careamics/dataset_ng/patch_extractor/patch_extractor.py +117 -0
careamics/dataset_ng/patch_filter/__init__.py +20 -0
careamics/dataset_ng/patch_filter/coordinate_filter_protocol.py +27 -0
careamics/dataset_ng/patch_filter/filter_factory.py +95 -0
careamics/dataset_ng/patch_filter/mask_filter.py +96 -0
careamics/dataset_ng/patch_filter/max_filter.py +188 -0
careamics/dataset_ng/patch_filter/mean_std_filter.py +218 -0
careamics/dataset_ng/patch_filter/patch_filter_protocol.py +50 -0
careamics/dataset_ng/patch_filter/shannon_filter.py +188 -0
careamics/dataset_ng/patching_strategies/__init__.py +26 -0
careamics/dataset_ng/patching_strategies/patching_strategy_factory.py +50 -0
careamics/dataset_ng/patching_strategies/patching_strategy_protocol.py +161 -0
careamics/dataset_ng/patching_strategies/random_patching.py +393 -0
careamics/dataset_ng/patching_strategies/sequential_patching.py +99 -0
careamics/dataset_ng/patching_strategies/tiling_strategy.py +207 -0
careamics/dataset_ng/patching_strategies/whole_sample.py +61 -0
careamics/file_io/__init__.py +15 -0
careamics/file_io/read/__init__.py +11 -0
careamics/file_io/read/get_func.py +57 -0
careamics/file_io/read/tiff.py +58 -0
careamics/file_io/write/__init__.py +15 -0
careamics/file_io/write/get_func.py +63 -0
careamics/file_io/write/tiff.py +40 -0
careamics/lightning/__init__.py +32 -0
careamics/lightning/callbacks/__init__.py +13 -0
careamics/lightning/callbacks/data_stats_callback.py +33 -0
careamics/lightning/callbacks/hyperparameters_callback.py +49 -0
careamics/lightning/callbacks/prediction_writer_callback/__init__.py +20 -0
careamics/lightning/callbacks/prediction_writer_callback/file_path_utils.py +56 -0
careamics/lightning/callbacks/prediction_writer_callback/prediction_writer_callback.py +234 -0
careamics/lightning/callbacks/prediction_writer_callback/write_strategy.py +399 -0
careamics/lightning/callbacks/prediction_writer_callback/write_strategy_factory.py +215 -0
careamics/lightning/callbacks/progress_bar_callback.py +90 -0
careamics/lightning/dataset_ng/__init__.py +1 -0
careamics/lightning/dataset_ng/callbacks/__init__.py +1 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/__init__.py +29 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/cached_tiles_strategy.py +164 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/file_path_utils.py +33 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/prediction_writer_callback.py +219 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_image_strategy.py +91 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_strategy.py +27 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_strategy_factory.py +214 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_tiles_zarr_strategy.py +375 -0
careamics/lightning/dataset_ng/data_module.py +529 -0
careamics/lightning/dataset_ng/data_module_utils.py +395 -0
careamics/lightning/dataset_ng/lightning_modules/__init__.py +9 -0
careamics/lightning/dataset_ng/lightning_modules/care_module.py +97 -0
careamics/lightning/dataset_ng/lightning_modules/n2v_module.py +106 -0
careamics/lightning/dataset_ng/lightning_modules/unet_module.py +221 -0
careamics/lightning/dataset_ng/prediction/__init__.py +16 -0
careamics/lightning/dataset_ng/prediction/convert_prediction.py +198 -0
careamics/lightning/dataset_ng/prediction/stitch_prediction.py +171 -0
careamics/lightning/lightning_module.py +914 -0
careamics/lightning/microsplit_data_module.py +632 -0
careamics/lightning/predict_data_module.py +341 -0
careamics/lightning/train_data_module.py +666 -0
careamics/losses/__init__.py +21 -0
careamics/losses/fcn/__init__.py +1 -0
careamics/losses/fcn/losses.py +125 -0
careamics/losses/loss_factory.py +80 -0
careamics/losses/lvae/__init__.py +1 -0
careamics/losses/lvae/loss_utils.py +83 -0
careamics/losses/lvae/losses.py +589 -0
careamics/lvae_training/__init__.py +0 -0
careamics/lvae_training/calibration.py +191 -0
careamics/lvae_training/dataset/__init__.py +20 -0
careamics/lvae_training/dataset/config.py +135 -0
careamics/lvae_training/dataset/lc_dataset.py +274 -0
careamics/lvae_training/dataset/ms_dataset_ref.py +1067 -0
careamics/lvae_training/dataset/multich_dataset.py +1121 -0
careamics/lvae_training/dataset/multicrop_dset.py +196 -0
careamics/lvae_training/dataset/multifile_dataset.py +335 -0
careamics/lvae_training/dataset/types.py +32 -0
careamics/lvae_training/dataset/utils/__init__.py +0 -0
careamics/lvae_training/dataset/utils/data_utils.py +114 -0
careamics/lvae_training/dataset/utils/empty_patch_fetcher.py +65 -0
careamics/lvae_training/dataset/utils/index_manager.py +491 -0
careamics/lvae_training/dataset/utils/index_switcher.py +165 -0
careamics/lvae_training/eval_utils.py +987 -0
careamics/lvae_training/get_config.py +84 -0
careamics/lvae_training/lightning_module.py +701 -0
careamics/lvae_training/metrics.py +214 -0
careamics/lvae_training/train_lvae.py +342 -0
careamics/lvae_training/train_utils.py +121 -0
careamics/model_io/__init__.py +7 -0
careamics/model_io/bioimage/__init__.py +11 -0
careamics/model_io/bioimage/_readme_factory.py +113 -0
careamics/model_io/bioimage/bioimage_utils.py +56 -0
careamics/model_io/bioimage/cover_factory.py +171 -0
careamics/model_io/bioimage/model_description.py +341 -0
careamics/model_io/bmz_io.py +251 -0
careamics/model_io/model_io_utils.py +95 -0
careamics/models/__init__.py +5 -0
careamics/models/activation.py +40 -0
careamics/models/layers.py +495 -0
careamics/models/lvae/__init__.py +3 -0
careamics/models/lvae/layers.py +1371 -0
careamics/models/lvae/likelihoods.py +394 -0
careamics/models/lvae/lvae.py +848 -0
careamics/models/lvae/noise_models.py +738 -0
careamics/models/lvae/stochastic.py +394 -0
careamics/models/lvae/utils.py +404 -0
careamics/models/model_factory.py +54 -0
careamics/models/unet.py +449 -0
careamics/nm_training_placeholder.py +203 -0
careamics/prediction_utils/__init__.py +21 -0
careamics/prediction_utils/lvae_prediction.py +158 -0
careamics/prediction_utils/lvae_tiling_manager.py +362 -0
careamics/prediction_utils/prediction_outputs.py +238 -0
careamics/prediction_utils/stitch_prediction.py +193 -0
careamics/py.typed +5 -0
careamics/transforms/__init__.py +22 -0
careamics/transforms/compose.py +173 -0
careamics/transforms/n2v_manipulate.py +150 -0
careamics/transforms/n2v_manipulate_torch.py +149 -0
careamics/transforms/normalize.py +374 -0
careamics/transforms/pixel_manipulation.py +406 -0
careamics/transforms/pixel_manipulation_torch.py +388 -0
careamics/transforms/struct_mask_parameters.py +20 -0
careamics/transforms/transform.py +24 -0
careamics/transforms/tta.py +88 -0
careamics/transforms/xy_flip.py +131 -0
careamics/transforms/xy_random_rotate90.py +108 -0
careamics/utils/__init__.py +19 -0
careamics/utils/autocorrelation.py +40 -0
careamics/utils/base_enum.py +60 -0
careamics/utils/context.py +67 -0
careamics/utils/deprecation.py +63 -0
careamics/utils/lightning_utils.py +71 -0
careamics/utils/logging.py +323 -0
careamics/utils/metrics.py +394 -0
careamics/utils/path_utils.py +26 -0
careamics/utils/plotting.py +76 -0
careamics/utils/ram.py +15 -0
careamics/utils/receptive_field.py +108 -0
careamics/utils/serializers.py +62 -0
careamics/utils/torch_utils.py +150 -0
careamics/utils/version.py +38 -0
careamics-0.0.19.dist-info/METADATA +80 -0
careamics-0.0.19.dist-info/RECORD +279 -0
careamics-0.0.19.dist-info/WHEEL +4 -0
careamics-0.0.19.dist-info/entry_points.txt +2 -0
careamics-0.0.19.dist-info/licenses/LICENSE +28 -0

careamics/lightning/dataset_ng/data_module.py ADDED Viewed

@@ -0,0 +1,529 @@
+"""Next-Generation CAREamics DataModule."""
+import copy
+from collections.abc import Callable, Sequence
+from pathlib import Path
+from typing import Any, Literal, Union, overload
+import numpy as np
+import pytorch_lightning as L
+from numpy.typing import NDArray
+from torch.utils.data import DataLoader, Sampler
+from torch.utils.data._utils.collate import default_collate
+from careamics.config.data.ng_data_config import NGDataConfig
+from careamics.config.support import SupportedData
+from careamics.dataset_ng.factory import create_dataset
+from careamics.dataset_ng.grouped_index_sampler import GroupedIndexSampler
+from careamics.dataset_ng.image_stack_loader import ImageStackLoader
+from careamics.lightning.dataset_ng.data_module_utils import initialize_data_pair
+from careamics.utils import get_logger
+logger = get_logger(__name__)
+ItemType = Union[Path, str, NDArray[Any]]
+"""Type of input items passed to the dataset."""
+InputType = Union[ItemType, Sequence[ItemType], None]
+"""Type of input data passed to the dataset."""
+class CareamicsDataModule(L.LightningDataModule):
+    """Data module for Careamics dataset.
+    Parameters
+    ----------
+    data_config : DataConfig
+        Pydantic model for CAREamics data configuration.
+    train_data : Optional[InputType]
+        Training data, can be a path to a folder, a list of paths, or a numpy array.
+    train_data_target : Optional[InputType]
+        Training data target, can be a path to a folder,
+        a list of paths, or a numpy array.
+    train_data_mask : InputType (when filtering is needed)
+        Training data mask, can be a path to a folder,
+        a list of paths, or a numpy array. Used for coordinate filtering.
+        Only required when using coordinate-based patch filtering.
+    val_data : Optional[InputType]
+        Validation data, can be a path to a folder,
+        a list of paths, or a numpy array.
+    val_data_target : Optional[InputType]
+        Validation data target, can be a path to a folder,
+        a list of paths, or a numpy array.
+    pred_data : Optional[InputType]
+        Prediction data, can be a path to a folder, a list of paths,
+        or a numpy array.
+    pred_data_target : Optional[InputType]
+        Prediction data target, can be a path to a folder,
+        a list of paths, or a numpy array.
+    read_source_func : Optional[Callable], default=None
+        Function to read the source data. Only used for `custom`
+        data type (see DataModel).
+    read_kwargs : Optional[dict[str, Any]]
+        The kwargs for the read source function.
+    image_stack_loader : Optional[ImageStackLoader]
+        The image stack loader.
+    image_stack_loader_kwargs : Optional[dict[str, Any]]
+        The image stack loader kwargs.
+    extension_filter : str, default=""
+        Filter for file extensions. Only used for `custom` data types
+        (see DataModel).
+    val_percentage : Optional[float]
+        Percentage of the training data to use for validation. Only
+        used if `val_data` is None.
+    val_minimum_split : int, default=5
+        Minimum number of patches or files to split from the training data for
+        validation. Only used if `val_data` is None.
+    Attributes
+    ----------
+    config : DataConfig
+        Pydantic model for CAREamics data configuration.
+    data_type : str
+        Type of data, one of SupportedData.
+    batch_size : int
+        Batch size for the dataloaders.
+    extension_filter : str
+        Filter for file extensions, by default "".
+    read_source_func : Optional[Callable], default=None
+        Function to read the source data.
+    read_kwargs : Optional[dict[str, Any]], default=None
+        The kwargs for the read source function.
+    val_percentage : Optional[float]
+        Percentage of the training data to use for validation.
+    val_minimum_split : int, default=5
+        Minimum number of patches or files to split from the training data for
+        validation.
+    train_data : Optional[Any]
+        Training data, can be a path to a folder, a list of paths, or a numpy array.
+    train_data_target : Optional[Any]
+        Training data target, can be a path to a folder, a list of paths, or a numpy
+        array.
+    train_data_mask : Optional[Any]
+        Training data mask, can be a path to a folder, a list of paths, or a numpy
+        array.
+    val_data : Optional[Any]
+        Validation data, can be a path to a folder, a list of paths, or a numpy array.
+    val_data_target : Optional[Any]
+        Validation data target, can be a path to a folder, a list of paths, or a numpy
+        array.
+    pred_data : Optional[Any]
+        Prediction data, can be a path to a folder, a list of paths, or a numpy array.
+    pred_data_target : Optional[Any]
+        Prediction data target, can be a path to a folder, a list of paths, or a numpy
+        array.
+    Raises
+    ------
+    ValueError
+        If at least one of train_data, val_data or pred_data is not provided.
+    ValueError
+        If input and target data types are not consistent.
+    """
+    # standard use (no mask)
+    @overload
+    def __init__(
+        self,
+        data_config: NGDataConfig,
+        *,
+        train_data: InputType | None = None,
+        train_data_target: InputType | None = None,
+        val_data: InputType | None = None,
+        val_data_target: InputType | None = None,
+        pred_data: InputType | None = None,
+        pred_data_target: InputType | None = None,
+        extension_filter: str = "",
+        val_percentage: float | None = None,
+        val_minimum_split: int = 5,
+    ) -> None: ...
+    # with training mask for filtering
+    @overload
+    def __init__(
+        self,
+        data_config: NGDataConfig,
+        *,
+        train_data: InputType | None = None,
+        train_data_target: InputType | None = None,
+        train_data_mask: InputType,
+        val_data: InputType | None = None,
+        val_data_target: InputType | None = None,
+        pred_data: InputType | None = None,
+        pred_data_target: InputType | None = None,
+        extension_filter: str = "",
+        val_percentage: float | None = None,
+        val_minimum_split: int = 5,
+    ) -> None: ...
+    # custom read function (no mask)
+    @overload
+    def __init__(
+        self,
+        data_config: NGDataConfig,
+        *,
+        train_data: InputType | None = None,
+        train_data_target: InputType | None = None,
+        val_data: InputType | None = None,
+        val_data_target: InputType | None = None,
+        pred_data: InputType | None = None,
+        pred_data_target: InputType | None = None,
+        read_source_func: Callable,
+        read_kwargs: dict[str, Any] | None = None,
+        extension_filter: str = "",
+        val_percentage: float | None = None,
+        val_minimum_split: int = 5,
+    ) -> None: ...
+    # custom read function with training mask
+    @overload
+    def __init__(
+        self,
+        data_config: NGDataConfig,
+        *,
+        train_data: InputType | None = None,
+        train_data_target: InputType | None = None,
+        train_data_mask: InputType,
+        val_data: InputType | None = None,
+        val_data_target: InputType | None = None,
+        pred_data: InputType | None = None,
+        pred_data_target: InputType | None = None,
+        read_source_func: Callable,
+        read_kwargs: dict[str, Any] | None = None,
+        extension_filter: str = "",
+        val_percentage: float | None = None,
+        val_minimum_split: int = 5,
+    ) -> None: ...
+    # image stack loader (no mask)
+    @overload
+    def __init__(
+        self,
+        data_config: NGDataConfig,
+        *,
+        train_data: Any | None = None,
+        train_data_target: Any | None = None,
+        val_data: Any | None = None,
+        val_data_target: Any | None = None,
+        pred_data: Any | None = None,
+        pred_data_target: Any | None = None,
+        image_stack_loader: ImageStackLoader,
+        image_stack_loader_kwargs: dict[str, Any] | None = None,
+        extension_filter: str = "",
+        val_percentage: float | None = None,
+        val_minimum_split: int = 5,
+    ) -> None: ...
+    # image stack loader with training mask
+    @overload
+    def __init__(
+        self,
+        data_config: NGDataConfig,
+        *,
+        train_data: Any | None = None,
+        train_data_target: Any | None = None,
+        train_data_mask: Any,
+        val_data: Any | None = None,
+        val_data_target: Any | None = None,
+        pred_data: Any | None = None,
+        pred_data_target: Any | None = None,
+        image_stack_loader: ImageStackLoader,
+        image_stack_loader_kwargs: dict[str, Any] | None = None,
+        extension_filter: str = "",
+        val_percentage: float | None = None,
+        val_minimum_split: int = 5,
+    ) -> None: ...
+    def __init__(
+        self,
+        data_config: NGDataConfig,
+        *,
+        train_data: Any | None = None,
+        train_data_target: Any | None = None,
+        train_data_mask: Any | None = None,
+        val_data: Any | None = None,
+        val_data_target: Any | None = None,
+        pred_data: Any | None = None,
+        pred_data_target: Any | None = None,
+        read_source_func: Callable | None = None,
+        read_kwargs: dict[str, Any] | None = None,
+        image_stack_loader: ImageStackLoader | None = None,
+        image_stack_loader_kwargs: dict[str, Any] | None = None,
+        extension_filter: str = "",
+        val_percentage: float | None = None,
+        val_minimum_split: int = 5,
+    ) -> None:
+        """
+        Data module for Careamics dataset initialization.
+        Create a lightning datamodule that handles creating datasets for training,
+        validation, and prediction.
+        Parameters
+        ----------
+        data_config : NGDataConfig
+            Pydantic model for CAREamics data configuration.
+        train_data : Optional[InputType]
+            Training data, can be a path to a folder, a list of paths, or a numpy array.
+        train_data_target : Optional[InputType]
+            Training data target, can be a path to a folder,
+            a list of paths, or a numpy array.
+        train_data_mask : InputType (when filtering is needed)
+            Training data mask, can be a path to a folder,
+            a list of paths, or a numpy array. Used for coordinate filtering.
+            Only required when using coordinate-based patch filtering.
+        val_data : Optional[InputType]
+            Validation data, can be a path to a folder,
+            a list of paths, or a numpy array.
+        val_data_target : Optional[InputType]
+            Validation data target, can be a path to a folder,
+            a list of paths, or a numpy array.
+        pred_data : Optional[InputType]
+            Prediction data, can be a path to a folder, a list of paths,
+            or a numpy array.
+        pred_data_target : Optional[InputType]
+            Prediction data target, can be a path to a folder,
+            a list of paths, or a numpy array.
+        read_source_func : Optional[Callable]
+            Function to read the source data, by default None. Only used for `custom`
+            data type (see DataModel).
+        read_kwargs : Optional[dict[str, Any]]
+            The kwargs for the read source function.
+        image_stack_loader : Optional[ImageStackLoader]
+            The image stack loader.
+        image_stack_loader_kwargs : Optional[dict[str, Any]]
+            The image stack loader kwargs.
+        extension_filter : str
+            Filter for file extensions, by default "". Only used for `custom` data types
+            (see DataModel).
+        val_percentage : Optional[float]
+            Percentage of the training data to use for validation. Only
+            used if `val_data` is None.
+        val_minimum_split : int
+            Minimum number of patches or files to split from the training data for
+            validation, by default 5. Only used if `val_data` is None.
+        """
+        super().__init__()
+        if train_data is None and val_data is None and pred_data is None:
+            raise ValueError(
+                "At least one of train_data, val_data or pred_data must be provided."
+            )
+        elif train_data is None != val_data is None:
+            raise ValueError(
+                "If one of train_data or val_data is provided, both must be provided."
+            )
+        self.config: NGDataConfig = data_config
+        self.data_type: str = data_config.data_type
+        self.batch_size: int = data_config.batch_size
+        self.extension_filter: str = (
+            extension_filter  # list_files pulls the correct ext
+        )
+        self.read_source_func = read_source_func
+        self.read_kwargs = read_kwargs
+        self.image_stack_loader = image_stack_loader
+        self.image_stack_loader_kwargs = image_stack_loader_kwargs
+        # TODO: implement the validation split logic
+        self.val_percentage = val_percentage
+        self.val_minimum_split = val_minimum_split
+        if self.val_percentage is not None:
+            raise NotImplementedError("Validation split is not implemented.")
+        custom_loader = self.image_stack_loader is not None
+        self.train_data, self.train_data_target = initialize_data_pair(
+            self.data_type,
+            train_data,
+            train_data_target,
+            extension_filter,
+            custom_loader,
+        )
+        self.train_data_mask, _ = initialize_data_pair(
+            self.data_type, train_data_mask, None, extension_filter, custom_loader
+        )
+        self.val_data, self.val_data_target = initialize_data_pair(
+            self.data_type, val_data, val_data_target, extension_filter, custom_loader
+        )
+        # The pred_data_target can be needed to count metrics on the prediction
+        self.pred_data, self.pred_data_target = initialize_data_pair(
+            self.data_type, pred_data, pred_data_target, extension_filter, custom_loader
+        )
+    def setup(self, stage: str) -> None:
+        """
+        Setup datasets.
+        Lightning hook that is called at the beginning of fit (train + validate),
+        validate, test, or predict. Creates the datasets for a given stage.
+        Parameters
+        ----------
+        stage : str
+            The stage to set up datasets for.
+            Is either 'fit', 'validate', 'test', or 'predict'.
+        Raises
+        ------
+        NotImplementedError
+            If stage is not one of "fit", "validate" or "predict".
+        """
+        if stage == "fit":
+            if self.config.mode != "training":
+                raise ValueError(
+                    f"CAREamicsDataModule configured for {self.config.mode} cannot be "
+                    f"used for training. Please create a new CareamicsDataModule with "
+                    f"a configuration with mode='training'."
+                )
+            self.train_dataset = create_dataset(
+                config=self.config,
+                inputs=self.train_data,
+                targets=self.train_data_target,
+                masks=self.train_data_mask,
+                read_func=self.read_source_func,
+                read_kwargs=self.read_kwargs,
+                image_stack_loader=self.image_stack_loader,
+                image_stack_loader_kwargs=self.image_stack_loader_kwargs,
+            )
+            # TODO: ugly, need to find a better solution
+            self.stats = self.train_dataset.input_stats
+            self.config.set_means_and_stds(
+                self.train_dataset.input_stats.means,
+                self.train_dataset.input_stats.stds,
+                self.train_dataset.target_stats.means,
+                self.train_dataset.target_stats.stds,
+            )
+            validation_config = self.config.convert_mode("validating")
+            self.val_dataset = create_dataset(
+                config=validation_config,
+                inputs=self.val_data,
+                targets=self.val_data_target,
+                read_func=self.read_source_func,
+                read_kwargs=self.read_kwargs,
+                image_stack_loader=self.image_stack_loader,
+                image_stack_loader_kwargs=self.image_stack_loader_kwargs,
+            )
+        elif stage == "validate":
+            validation_config = self.config.convert_mode("validating")
+            self.val_dataset = create_dataset(
+                config=validation_config,
+                inputs=self.val_data,
+                targets=self.val_data_target,
+                read_func=self.read_source_func,
+                read_kwargs=self.read_kwargs,
+                image_stack_loader=self.image_stack_loader,
+                image_stack_loader_kwargs=self.image_stack_loader_kwargs,
+            )
+            self.stats = self.val_dataset.input_stats
+        elif stage == "predict":
+            if self.config.mode == "validating":
+                raise ValueError(
+                    "CAREamicsDataModule configured for validating cannot be used for "
+                    "prediction. Please create a new CareamicsDataModule with a "
+                    "configuration with mode='predicting'."
+                )
+            self.predict_dataset = create_dataset(
+                config=(
+                    self.config.convert_mode("predicting")
+                    if self.config.mode == "training"
+                    else self.config
+                ),
+                inputs=self.pred_data,
+                targets=self.pred_data_target,
+                read_func=self.read_source_func,
+                read_kwargs=self.read_kwargs,
+                image_stack_loader=self.image_stack_loader,
+                image_stack_loader_kwargs=self.image_stack_loader_kwargs,
+            )
+            self.stats = self.predict_dataset.input_stats
+        else:
+            raise NotImplementedError(f"Stage {stage} not implemented")
+    def _sampler(self, dataset: Literal["train", "val", "predict"]) -> Sampler | None:
+        sampler: GroupedIndexSampler | None
+        rng = np.random.default_rng(self.config.seed)
+        if not self.config.in_memory and self.config.data_type == SupportedData.TIFF:
+            match dataset:
+                case "train":
+                    ds = self.train_dataset
+                case "val":
+                    ds = self.val_dataset
+                case "predict":
+                    ds = self.predict_dataset
+                case _:
+                    raise (
+                        f"Unrecognized dataset '{dataset}', should be one of 'train', "
+                        "'val' or 'predict'."
+                    )
+            sampler = GroupedIndexSampler.from_dataset(ds, rng=rng)
+        else:
+            sampler = None
+        return sampler
+    def train_dataloader(self) -> DataLoader:
+        """
+        Create a dataloader for training.
+        Returns
+        -------
+        DataLoader
+            Training dataloader.
+        """
+        sampler = self._sampler("train")
+        dataloader_params = copy.deepcopy(self.config.train_dataloader_params)
+        # have to remove shuffle with sampler because of torch error:
+        #   ValueError: sampler option is mutually exclusive with shuffle
+        # TODO: there might be other parameters mutually exclusive with sampler
+        if (sampler is not None) and ("shuffle" in dataloader_params):
+            del dataloader_params["shuffle"]
+        return DataLoader(
+            self.train_dataset,
+            batch_size=self.batch_size,
+            collate_fn=default_collate,
+            sampler=sampler,
+            **dataloader_params,
+        )
+    def val_dataloader(self) -> DataLoader:
+        """
+        Create a dataloader for validation.
+        Returns
+        -------
+        DataLoader
+            Validation dataloader.
+        """
+        sampler = self._sampler("val")
+        dataloader_params = copy.deepcopy(self.config.val_dataloader_params)
+        if (sampler is not None) and ("shuffle" in dataloader_params):
+            del dataloader_params["shuffle"]
+        return DataLoader(
+            self.val_dataset,
+            batch_size=self.batch_size,
+            collate_fn=default_collate,
+            sampler=sampler,
+            **dataloader_params,
+        )
+    def predict_dataloader(self) -> DataLoader:
+        """
+        Create a dataloader for prediction.
+        Returns
+        -------
+        DataLoader
+            Prediction dataloader.
+        """
+        return DataLoader(
+            self.predict_dataset,
+            batch_size=self.batch_size,
+            collate_fn=default_collate,
+            **self.config.pred_dataloader_params,
+        )