PyPI - careamics - Versions diffs - 0.0.19__py3-none-any.whl - Mend

careamics 0.0.19__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (279) hide show

careamics/__init__.py +24 -0
careamics/careamist.py +961 -0
careamics/cli/__init__.py +5 -0
careamics/cli/conf.py +394 -0
careamics/cli/main.py +234 -0
careamics/cli/utils.py +27 -0
careamics/config/__init__.py +66 -0
careamics/config/algorithms/__init__.py +21 -0
careamics/config/algorithms/care_algorithm_config.py +122 -0
careamics/config/algorithms/hdn_algorithm_config.py +103 -0
careamics/config/algorithms/microsplit_algorithm_config.py +103 -0
careamics/config/algorithms/n2n_algorithm_config.py +115 -0
careamics/config/algorithms/n2v_algorithm_config.py +296 -0
careamics/config/algorithms/pn2v_algorithm_config.py +301 -0
careamics/config/algorithms/unet_algorithm_config.py +91 -0
careamics/config/algorithms/vae_algorithm_config.py +178 -0
careamics/config/architectures/__init__.py +7 -0
careamics/config/architectures/architecture_config.py +37 -0
careamics/config/architectures/lvae_config.py +262 -0
careamics/config/architectures/unet_config.py +125 -0
careamics/config/configuration.py +367 -0
careamics/config/configuration_factories.py +2400 -0
careamics/config/data/__init__.py +27 -0
careamics/config/data/data_config.py +472 -0
careamics/config/data/inference_config.py +237 -0
careamics/config/data/ng_data_config.py +1038 -0
careamics/config/data/patch_filter/__init__.py +15 -0
careamics/config/data/patch_filter/filter_config.py +16 -0
careamics/config/data/patch_filter/mask_filter_config.py +17 -0
careamics/config/data/patch_filter/max_filter_config.py +15 -0
careamics/config/data/patch_filter/meanstd_filter_config.py +18 -0
careamics/config/data/patch_filter/shannon_filter_config.py +15 -0
careamics/config/data/patching_strategies/__init__.py +15 -0
careamics/config/data/patching_strategies/_overlapping_patched_config.py +102 -0
careamics/config/data/patching_strategies/_patched_config.py +56 -0
careamics/config/data/patching_strategies/random_patching_config.py +45 -0
careamics/config/data/patching_strategies/sequential_patching_config.py +25 -0
careamics/config/data/patching_strategies/tiled_patching_config.py +40 -0
careamics/config/data/patching_strategies/whole_patching_config.py +12 -0
careamics/config/data/tile_information.py +65 -0
careamics/config/lightning/__init__.py +15 -0
careamics/config/lightning/callbacks/__init__.py +8 -0
careamics/config/lightning/callbacks/callback_config.py +116 -0
careamics/config/lightning/optimizer_configs.py +186 -0
careamics/config/lightning/training_config.py +70 -0
careamics/config/losses/__init__.py +8 -0
careamics/config/losses/loss_config.py +60 -0
careamics/config/ng_configs/__init__.py +5 -0
careamics/config/ng_configs/n2v_configuration.py +64 -0
careamics/config/ng_configs/ng_configuration.py +256 -0
careamics/config/ng_factories/__init__.py +9 -0
careamics/config/ng_factories/algorithm_factory.py +120 -0
careamics/config/ng_factories/data_factory.py +154 -0
careamics/config/ng_factories/n2v_factory.py +256 -0
careamics/config/ng_factories/training_factory.py +69 -0
careamics/config/noise_model/__init__.py +12 -0
careamics/config/noise_model/likelihood_config.py +60 -0
careamics/config/noise_model/noise_model_config.py +149 -0
careamics/config/support/__init__.py +31 -0
careamics/config/support/supported_activations.py +27 -0
careamics/config/support/supported_algorithms.py +40 -0
careamics/config/support/supported_architectures.py +13 -0
careamics/config/support/supported_data.py +122 -0
careamics/config/support/supported_filters.py +17 -0
careamics/config/support/supported_loggers.py +10 -0
careamics/config/support/supported_losses.py +32 -0
careamics/config/support/supported_optimizers.py +57 -0
careamics/config/support/supported_patching_strategies.py +22 -0
careamics/config/support/supported_pixel_manipulations.py +15 -0
careamics/config/support/supported_struct_axis.py +21 -0
careamics/config/support/supported_transforms.py +12 -0
careamics/config/transformations/__init__.py +22 -0
careamics/config/transformations/n2v_manipulate_config.py +79 -0
careamics/config/transformations/normalize_config.py +59 -0
careamics/config/transformations/transform_config.py +45 -0
careamics/config/transformations/transform_unions.py +29 -0
careamics/config/transformations/xy_flip_config.py +43 -0
careamics/config/transformations/xy_random_rotate90_config.py +35 -0
careamics/config/utils/__init__.py +8 -0
careamics/config/utils/configuration_io.py +85 -0
careamics/config/validators/__init__.py +18 -0
careamics/config/validators/axes_validators.py +90 -0
careamics/config/validators/model_validators.py +84 -0
careamics/config/validators/patch_validators.py +55 -0
careamics/conftest.py +39 -0
careamics/dataset/__init__.py +17 -0
careamics/dataset/dataset_utils/__init__.py +19 -0
careamics/dataset/dataset_utils/dataset_utils.py +118 -0
careamics/dataset/dataset_utils/file_utils.py +141 -0
careamics/dataset/dataset_utils/iterate_over_files.py +84 -0
careamics/dataset/dataset_utils/running_stats.py +189 -0
careamics/dataset/in_memory_dataset.py +303 -0
careamics/dataset/in_memory_pred_dataset.py +88 -0
careamics/dataset/in_memory_tiled_pred_dataset.py +131 -0
careamics/dataset/iterable_dataset.py +294 -0
careamics/dataset/iterable_pred_dataset.py +121 -0
careamics/dataset/iterable_tiled_pred_dataset.py +141 -0
careamics/dataset/patching/__init__.py +1 -0
careamics/dataset/patching/patching.py +300 -0
careamics/dataset/patching/random_patching.py +110 -0
careamics/dataset/patching/sequential_patching.py +212 -0
careamics/dataset/patching/validate_patch_dimension.py +64 -0
careamics/dataset/tiling/__init__.py +10 -0
careamics/dataset/tiling/collate_tiles.py +33 -0
careamics/dataset/tiling/lvae_tiled_patching.py +375 -0
careamics/dataset/tiling/tiled_patching.py +166 -0
careamics/dataset_ng/README.md +212 -0
careamics/dataset_ng/__init__.py +0 -0
careamics/dataset_ng/dataset.py +365 -0
careamics/dataset_ng/demos/bsd68_demo.ipynb +361 -0
careamics/dataset_ng/demos/bsd68_zarr_demo.ipynb +453 -0
careamics/dataset_ng/demos/care_U2OS_demo.ipynb +330 -0
careamics/dataset_ng/demos/demo_custom_image_stack.ipynb +736 -0
careamics/dataset_ng/demos/demo_datamodule.ipynb +447 -0
careamics/dataset_ng/demos/demo_dataset.ipynb +278 -0
careamics/dataset_ng/demos/demo_patch_extractor.py +51 -0
careamics/dataset_ng/demos/mouse_nuclei_demo.ipynb +293 -0
careamics/dataset_ng/factory.py +180 -0
careamics/dataset_ng/grouped_index_sampler.py +73 -0
careamics/dataset_ng/image_stack/__init__.py +14 -0
careamics/dataset_ng/image_stack/czi_image_stack.py +396 -0
careamics/dataset_ng/image_stack/file_image_stack.py +140 -0
careamics/dataset_ng/image_stack/image_stack_protocol.py +93 -0
careamics/dataset_ng/image_stack/image_utils/__init__.py +6 -0
careamics/dataset_ng/image_stack/image_utils/image_stack_utils.py +125 -0
careamics/dataset_ng/image_stack/in_memory_image_stack.py +93 -0
careamics/dataset_ng/image_stack/zarr_image_stack.py +170 -0
careamics/dataset_ng/image_stack_loader/__init__.py +19 -0
careamics/dataset_ng/image_stack_loader/image_stack_loader_protocol.py +70 -0
careamics/dataset_ng/image_stack_loader/image_stack_loaders.py +273 -0
careamics/dataset_ng/image_stack_loader/zarr_utils.py +130 -0
careamics/dataset_ng/legacy_interoperability.py +175 -0
careamics/dataset_ng/microsplit_input_synth.py +377 -0
careamics/dataset_ng/patch_extractor/__init__.py +7 -0
careamics/dataset_ng/patch_extractor/limit_file_extractor.py +50 -0
careamics/dataset_ng/patch_extractor/patch_construction.py +151 -0
careamics/dataset_ng/patch_extractor/patch_extractor.py +117 -0
careamics/dataset_ng/patch_filter/__init__.py +20 -0
careamics/dataset_ng/patch_filter/coordinate_filter_protocol.py +27 -0
careamics/dataset_ng/patch_filter/filter_factory.py +95 -0
careamics/dataset_ng/patch_filter/mask_filter.py +96 -0
careamics/dataset_ng/patch_filter/max_filter.py +188 -0
careamics/dataset_ng/patch_filter/mean_std_filter.py +218 -0
careamics/dataset_ng/patch_filter/patch_filter_protocol.py +50 -0
careamics/dataset_ng/patch_filter/shannon_filter.py +188 -0
careamics/dataset_ng/patching_strategies/__init__.py +26 -0
careamics/dataset_ng/patching_strategies/patching_strategy_factory.py +50 -0
careamics/dataset_ng/patching_strategies/patching_strategy_protocol.py +161 -0
careamics/dataset_ng/patching_strategies/random_patching.py +393 -0
careamics/dataset_ng/patching_strategies/sequential_patching.py +99 -0
careamics/dataset_ng/patching_strategies/tiling_strategy.py +207 -0
careamics/dataset_ng/patching_strategies/whole_sample.py +61 -0
careamics/file_io/__init__.py +15 -0
careamics/file_io/read/__init__.py +11 -0
careamics/file_io/read/get_func.py +57 -0
careamics/file_io/read/tiff.py +58 -0
careamics/file_io/write/__init__.py +15 -0
careamics/file_io/write/get_func.py +63 -0
careamics/file_io/write/tiff.py +40 -0
careamics/lightning/__init__.py +32 -0
careamics/lightning/callbacks/__init__.py +13 -0
careamics/lightning/callbacks/data_stats_callback.py +33 -0
careamics/lightning/callbacks/hyperparameters_callback.py +49 -0
careamics/lightning/callbacks/prediction_writer_callback/__init__.py +20 -0
careamics/lightning/callbacks/prediction_writer_callback/file_path_utils.py +56 -0
careamics/lightning/callbacks/prediction_writer_callback/prediction_writer_callback.py +234 -0
careamics/lightning/callbacks/prediction_writer_callback/write_strategy.py +399 -0
careamics/lightning/callbacks/prediction_writer_callback/write_strategy_factory.py +215 -0
careamics/lightning/callbacks/progress_bar_callback.py +90 -0
careamics/lightning/dataset_ng/__init__.py +1 -0
careamics/lightning/dataset_ng/callbacks/__init__.py +1 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/__init__.py +29 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/cached_tiles_strategy.py +164 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/file_path_utils.py +33 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/prediction_writer_callback.py +219 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_image_strategy.py +91 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_strategy.py +27 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_strategy_factory.py +214 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_tiles_zarr_strategy.py +375 -0
careamics/lightning/dataset_ng/data_module.py +529 -0
careamics/lightning/dataset_ng/data_module_utils.py +395 -0
careamics/lightning/dataset_ng/lightning_modules/__init__.py +9 -0
careamics/lightning/dataset_ng/lightning_modules/care_module.py +97 -0
careamics/lightning/dataset_ng/lightning_modules/n2v_module.py +106 -0
careamics/lightning/dataset_ng/lightning_modules/unet_module.py +221 -0
careamics/lightning/dataset_ng/prediction/__init__.py +16 -0
careamics/lightning/dataset_ng/prediction/convert_prediction.py +198 -0
careamics/lightning/dataset_ng/prediction/stitch_prediction.py +171 -0
careamics/lightning/lightning_module.py +914 -0
careamics/lightning/microsplit_data_module.py +632 -0
careamics/lightning/predict_data_module.py +341 -0
careamics/lightning/train_data_module.py +666 -0
careamics/losses/__init__.py +21 -0
careamics/losses/fcn/__init__.py +1 -0
careamics/losses/fcn/losses.py +125 -0
careamics/losses/loss_factory.py +80 -0
careamics/losses/lvae/__init__.py +1 -0
careamics/losses/lvae/loss_utils.py +83 -0
careamics/losses/lvae/losses.py +589 -0
careamics/lvae_training/__init__.py +0 -0
careamics/lvae_training/calibration.py +191 -0
careamics/lvae_training/dataset/__init__.py +20 -0
careamics/lvae_training/dataset/config.py +135 -0
careamics/lvae_training/dataset/lc_dataset.py +274 -0
careamics/lvae_training/dataset/ms_dataset_ref.py +1067 -0
careamics/lvae_training/dataset/multich_dataset.py +1121 -0
careamics/lvae_training/dataset/multicrop_dset.py +196 -0
careamics/lvae_training/dataset/multifile_dataset.py +335 -0
careamics/lvae_training/dataset/types.py +32 -0
careamics/lvae_training/dataset/utils/__init__.py +0 -0
careamics/lvae_training/dataset/utils/data_utils.py +114 -0
careamics/lvae_training/dataset/utils/empty_patch_fetcher.py +65 -0
careamics/lvae_training/dataset/utils/index_manager.py +491 -0
careamics/lvae_training/dataset/utils/index_switcher.py +165 -0
careamics/lvae_training/eval_utils.py +987 -0
careamics/lvae_training/get_config.py +84 -0
careamics/lvae_training/lightning_module.py +701 -0
careamics/lvae_training/metrics.py +214 -0
careamics/lvae_training/train_lvae.py +342 -0
careamics/lvae_training/train_utils.py +121 -0
careamics/model_io/__init__.py +7 -0
careamics/model_io/bioimage/__init__.py +11 -0
careamics/model_io/bioimage/_readme_factory.py +113 -0
careamics/model_io/bioimage/bioimage_utils.py +56 -0
careamics/model_io/bioimage/cover_factory.py +171 -0
careamics/model_io/bioimage/model_description.py +341 -0
careamics/model_io/bmz_io.py +251 -0
careamics/model_io/model_io_utils.py +95 -0
careamics/models/__init__.py +5 -0
careamics/models/activation.py +40 -0
careamics/models/layers.py +495 -0
careamics/models/lvae/__init__.py +3 -0
careamics/models/lvae/layers.py +1371 -0
careamics/models/lvae/likelihoods.py +394 -0
careamics/models/lvae/lvae.py +848 -0
careamics/models/lvae/noise_models.py +738 -0
careamics/models/lvae/stochastic.py +394 -0
careamics/models/lvae/utils.py +404 -0
careamics/models/model_factory.py +54 -0
careamics/models/unet.py +449 -0
careamics/nm_training_placeholder.py +203 -0
careamics/prediction_utils/__init__.py +21 -0
careamics/prediction_utils/lvae_prediction.py +158 -0
careamics/prediction_utils/lvae_tiling_manager.py +362 -0
careamics/prediction_utils/prediction_outputs.py +238 -0
careamics/prediction_utils/stitch_prediction.py +193 -0
careamics/py.typed +5 -0
careamics/transforms/__init__.py +22 -0
careamics/transforms/compose.py +173 -0
careamics/transforms/n2v_manipulate.py +150 -0
careamics/transforms/n2v_manipulate_torch.py +149 -0
careamics/transforms/normalize.py +374 -0
careamics/transforms/pixel_manipulation.py +406 -0
careamics/transforms/pixel_manipulation_torch.py +388 -0
careamics/transforms/struct_mask_parameters.py +20 -0
careamics/transforms/transform.py +24 -0
careamics/transforms/tta.py +88 -0
careamics/transforms/xy_flip.py +131 -0
careamics/transforms/xy_random_rotate90.py +108 -0
careamics/utils/__init__.py +19 -0
careamics/utils/autocorrelation.py +40 -0
careamics/utils/base_enum.py +60 -0
careamics/utils/context.py +67 -0
careamics/utils/deprecation.py +63 -0
careamics/utils/lightning_utils.py +71 -0
careamics/utils/logging.py +323 -0
careamics/utils/metrics.py +394 -0
careamics/utils/path_utils.py +26 -0
careamics/utils/plotting.py +76 -0
careamics/utils/ram.py +15 -0
careamics/utils/receptive_field.py +108 -0
careamics/utils/serializers.py +62 -0
careamics/utils/torch_utils.py +150 -0
careamics/utils/version.py +38 -0
careamics-0.0.19.dist-info/METADATA +80 -0
careamics-0.0.19.dist-info/RECORD +279 -0
careamics-0.0.19.dist-info/WHEEL +4 -0
careamics-0.0.19.dist-info/entry_points.txt +2 -0
careamics-0.0.19.dist-info/licenses/LICENSE +28 -0

careamics/lightning/microsplit_data_module.py ADDED Viewed

@@ -0,0 +1,632 @@
+"""MicroSplit data module for training and validation."""
+from collections.abc import Callable
+from pathlib import Path
+from typing import Union
+import numpy as np
+import pytorch_lightning as L
+import tifffile
+from numpy.typing import NDArray
+from torch.utils.data import DataLoader
+from careamics.dataset.dataset_utils.dataset_utils import reshape_array
+from careamics.lvae_training.dataset import (
+    DataSplitType,
+    DataType,
+    LCMultiChDloader,
+    MicroSplitDataConfig,
+)
+from careamics.lvae_training.dataset.types import TilingMode
+# TODO refactor
+def load_one_file(fpath):
+    """Load a single 2D image file.
+    Parameters
+    ----------
+    fpath : str or Path
+        Path to the image file.
+    Returns
+    -------
+    numpy.ndarray
+        Reshaped image data.
+    """
+    data = tifffile.imread(fpath)
+    if len(data.shape) == 2:
+        axes = "YX"
+    elif len(data.shape) == 3:
+        axes = "SYX"
+    elif len(data.shape) == 4:
+        axes = "STYX"
+    else:
+        raise ValueError(f"Invalid data shape: {data.shape}")
+    data = reshape_array(data, axes)
+    data = data.reshape(-1, data.shape[-2], data.shape[-1])
+    return data
+# TODO refactor
+def load_data(datadir):
+    """Load data from a directory containing channel subdirectories with image files.
+    Parameters
+    ----------
+    datadir : str or Path
+        Path to the data directory containing channel subdirectories.
+    Returns
+    -------
+    numpy.ndarray
+        Stacked array of all channels' data.
+    """
+    data_path = Path(datadir)
+    channel_dirs = sorted(p for p in data_path.iterdir() if p.is_dir())
+    channels_data = []
+    for channel_dir in channel_dirs:
+        image_files = sorted(f for f in channel_dir.iterdir() if f.is_file())
+        channel_images = [load_one_file(image_path) for image_path in image_files]
+        channel_stack = np.concatenate(
+            channel_images, axis=0
+        )  # FIXME: this line works if images have a singleton channel dimension.
+        # Specify in the notebook or change with `torch.stack`??
+        channels_data.append(channel_stack)
+    final_data = np.stack(channels_data, axis=-1)
+    return final_data
+# TODO refactor
+def get_datasplit_tuples(val_fraction, test_fraction, data_length):
+    """Get train/val/test indices for data splitting.
+    Parameters
+    ----------
+    val_fraction : float or None
+        Fraction of data to use for validation.
+    test_fraction : float or None
+        Fraction of data to use for testing.
+    data_length : int
+        Total length of the dataset.
+    Returns
+    -------
+    tuple[numpy.ndarray, numpy.ndarray, numpy.ndarray]
+        Training, validation, and test indices.
+    """
+    indices = np.arange(data_length)
+    np.random.shuffle(indices)
+    if val_fraction is None:
+        val_fraction = 0.0
+    if test_fraction is None:
+        test_fraction = 0.0
+    val_size = int(data_length * val_fraction)
+    test_size = int(data_length * test_fraction)
+    train_size = data_length - val_size - test_size
+    train_idx = indices[:train_size]
+    val_idx = indices[train_size : train_size + val_size]
+    test_idx = indices[train_size + val_size :]
+    return train_idx, val_idx, test_idx
+# TODO refactor
+def get_train_val_data(
+    data_config,
+    datadir,
+    datasplit_type: DataSplitType,
+    val_fraction=None,
+    test_fraction=None,
+    allow_generation=None,
+    **kwargs,
+):
+    """Load and split data according to configuration.
+    Parameters
+    ----------
+    data_config : MicroSplitDataConfig
+        Data configuration object.
+    datadir : str or Path
+        Path to the data directory.
+    datasplit_type : DataSplitType
+        Type of data split to return.
+    val_fraction : float, optional
+        Fraction of data to use for validation.
+    test_fraction : float, optional
+        Fraction of data to use for testing.
+    allow_generation : bool, optional
+        Whether to allow data generation.
+    **kwargs
+        Additional keyword arguments.
+    Returns
+    -------
+    numpy.ndarray
+        Split data array.
+    """
+    data = load_data(datadir)
+    train_idx, val_idx, test_idx = get_datasplit_tuples(
+        val_fraction, test_fraction, len(data)
+    )
+    if datasplit_type == DataSplitType.All:
+        data = data.astype(np.float64)
+    elif datasplit_type == DataSplitType.Train:
+        data = data[train_idx].astype(np.float64)
+    elif datasplit_type == DataSplitType.Val:
+        data = data[val_idx].astype(np.float64)
+    elif datasplit_type == DataSplitType.Test:
+        # TODO this is only used for prediction, and only because old dataset uses it
+        data = data[test_idx].astype(np.float64)
+    else:
+        raise Exception("invalid datasplit")
+    return data
+class MicroSplitDataModule(L.LightningDataModule):
+    """Lightning DataModule for MicroSplit-style datasets.
+    Matches the interface of TrainDataModule, but internally uses original MicroSplit
+    dataset logic.
+    Parameters
+    ----------
+    data_config : MicroSplitDataConfig
+        Configuration for the MicroSplit dataset.
+    train_data : str
+        Path to training data directory.
+    val_data : str, optional
+        Path to validation data directory.
+    train_data_target : str, optional
+        Path to training target data.
+    val_data_target : str, optional
+        Path to validation target data.
+    read_source_func : Callable, optional
+        Function to read source data.
+    extension_filter : str, optional
+        File extension filter.
+    val_percentage : float, optional
+        Percentage of data to use for validation, by default 0.1.
+    val_minimum_split : int, optional
+        Minimum number of samples for validation split, by default 5.
+    use_in_memory : bool, optional
+        Whether to use in-memory dataset, by default True.
+    """
+    def __init__(
+        self,
+        data_config: MicroSplitDataConfig,
+        train_data: str,
+        val_data: str | None = None,
+        train_data_target: str | None = None,
+        val_data_target: str | None = None,
+        read_source_func: Callable | None = None,
+        extension_filter: str = "",
+        val_percentage: float = 0.1,
+        val_minimum_split: int = 5,
+        use_in_memory: bool = True,
+    ):
+        """Initialize MicroSplitDataModule.
+        Parameters
+        ----------
+        data_config : MicroSplitDataConfig
+            Configuration for the MicroSplit dataset.
+        train_data : str
+            Path to training data directory.
+        val_data : str, optional
+            Path to validation data directory.
+        train_data_target : str, optional
+            Path to training target data.
+        val_data_target : str, optional
+            Path to validation target data.
+        read_source_func : Callable, optional
+            Function to read source data.
+        extension_filter : str, optional
+            File extension filter.
+        val_percentage : float, optional
+            Percentage of data to use for validation, by default 0.1.
+        val_minimum_split : int, optional
+            Minimum number of samples for validation split, by default 5.
+        use_in_memory : bool, optional
+            Whether to use in-memory dataset, by default True.
+        """
+        super().__init__()
+        # Dataset selection logic (adapted from create_train_val_datasets)
+        self.train_config = data_config  # SHould configs be separated?
+        self.val_config = data_config
+        self.test_config = data_config
+        datapath = train_data
+        load_data_func = read_source_func
+        dataset_class = LCMultiChDloader  # TODO hardcoded for now
+        # Create datasets
+        self.train_dataset = dataset_class(
+            self.train_config,
+            datapath,
+            load_data_fn=load_data_func,
+            val_fraction=val_percentage,
+            test_fraction=0.1,
+        )
+        max_val = self.train_dataset.get_max_val()
+        self.val_config.max_val = max_val
+        if self.train_config.datasplit_type == DataSplitType.All:
+            self.val_config.datasplit_type = DataSplitType.All
+            self.test_config.datasplit_type = DataSplitType.All
+        self.val_dataset = dataset_class(
+            self.val_config,
+            datapath,
+            load_data_fn=load_data_func,
+            val_fraction=val_percentage,
+            test_fraction=0.1,
+        )
+        self.test_config.max_val = max_val
+        self.test_dataset = dataset_class(
+            self.test_config,
+            datapath,
+            load_data_fn=load_data_func,
+            val_fraction=val_percentage,
+            test_fraction=0.1,
+        )
+        mean_val, std_val = self.train_dataset.compute_mean_std()
+        self.train_dataset.set_mean_std(mean_val, std_val)
+        self.val_dataset.set_mean_std(mean_val, std_val)
+        self.test_dataset.set_mean_std(mean_val, std_val)
+        data_stats = self.train_dataset.get_mean_std()
+        # Store data statistics
+        self.data_stats = (
+            data_stats[0],
+            data_stats[1],
+        )  # TODO repeats old logic, revisit
+    def train_dataloader(self):
+        """Create a dataloader for training.
+        Returns
+        -------
+        DataLoader
+            Training dataloader.
+        """
+        return DataLoader(
+            self.train_dataset,
+            batch_size=self.train_config.batch_size,
+            # TODO should be inside dataloader params?
+            **self.train_config.train_dataloader_params,
+        )
+    def val_dataloader(self):
+        """Create a dataloader for validation.
+        Returns
+        -------
+        DataLoader
+            Validation dataloader.
+        """
+        return DataLoader(
+            self.val_dataset,
+            batch_size=self.train_config.batch_size,
+            **self.val_config.val_dataloader_params,  # TODO duplicated
+        )
+    def get_data_stats(self):
+        """Get data statistics.
+        Returns
+        -------
+        tuple[dict, dict]
+            A tuple containing two dictionaries:
+            - data_mean: mean values for input and target
+            - data_std: standard deviation values for input and target
+        """
+        return self.data_stats, self.val_config.max_val  # TODO should be in the config?
+def create_microsplit_train_datamodule(
+    train_data: str,
+    patch_size: tuple,
+    data_type: DataType,
+    axes: str,  # TODO should be there after refactoring
+    batch_size: int,
+    val_data: str | None = None,
+    num_channels: int = 2,
+    depth3D: int = 1,
+    grid_size: tuple | None = None,
+    multiscale_count: int | None = None,
+    tiling_mode: TilingMode = TilingMode.ShiftBoundary,
+    read_source_func: Callable | None = None,  # TODO should be there after refactoring
+    extension_filter: str = "",
+    val_percentage: float = 0.1,
+    val_minimum_split: int = 5,
+    use_in_memory: bool = True,
+    transforms: list | None = None,  # TODO should it be here?
+    train_dataloader_params: dict | None = None,
+    val_dataloader_params: dict | None = None,
+    **dataset_kwargs,
+) -> MicroSplitDataModule:
+    """
+    Create a MicroSplitDataModule for MicroSplit-style datasets.
+    Parameters
+    ----------
+    train_data : str
+        Path to training data.
+    patch_size : tuple
+        Size of one patch of data.
+    data_type : DataType
+        Type of the dataset (must be a DataType enum value).
+    axes : str
+        Axes of the data (e.g., 'SYX').
+    batch_size : int
+        Batch size for dataloaders.
+    val_data : str, optional
+        Path to validation data.
+    num_channels : int, default=2
+        Number of channels in the input.
+    depth3D : int, default=1
+        Number of slices in 3D.
+    grid_size : tuple, optional
+        Grid size for patch extraction.
+    multiscale_count : int, optional
+        Number of LC scales.
+    tiling_mode : TilingMode, default=ShiftBoundary
+        Tiling mode for patch extraction.
+    read_source_func : Callable, optional
+        Function to read the source data.
+    extension_filter : str, optional
+        File extension filter.
+    val_percentage : float, default=0.1
+        Percentage of training data to use for validation.
+    val_minimum_split : int, default=5
+        Minimum number of patches/files for validation split.
+    use_in_memory : bool, default=True
+        Use in-memory dataset if possible.
+    transforms : list, optional
+        List of transforms to apply.
+    train_dataloader_params : dict, optional
+        Parameters for training dataloader.
+    val_dataloader_params : dict, optional
+        Parameters for validation dataloader.
+    **dataset_kwargs :
+        Additional arguments passed to DatasetConfig.
+    Returns
+    -------
+    MicroSplitDataModule
+        Configured MicroSplitDataModule instance.
+    """
+    # Create dataset configs with only valid parameters
+    dataset_config_params = {
+        "data_type": data_type,
+        "image_size": patch_size,
+        "num_channels": num_channels,
+        "depth3D": depth3D,
+        "grid_size": grid_size,
+        "multiscale_lowres_count": multiscale_count,
+        "tiling_mode": tiling_mode,
+        "batch_size": batch_size,
+        "train_dataloader_params": train_dataloader_params,
+        "val_dataloader_params": val_dataloader_params,
+        **dataset_kwargs,
+    }
+    train_config = MicroSplitDataConfig(
+        **dataset_config_params,
+        datasplit_type=DataSplitType.Train,
+    )
+    # val_config = MicroSplitDataConfig(
+    #     **dataset_config_params,
+    #     datasplit_type=DataSplitType.Val,
+    # )
+    # TODO, data config is duplicated here and in configuration
+    return MicroSplitDataModule(
+        data_config=train_config,
+        train_data=train_data,
+        val_data=val_data or train_data,
+        train_data_target=None,
+        val_data_target=None,
+        read_source_func=get_train_val_data,  # Use our wrapped function
+        extension_filter=extension_filter,
+        val_percentage=val_percentage,
+        val_minimum_split=val_minimum_split,
+        use_in_memory=use_in_memory,
+    )
+class MicroSplitPredictDataModule(L.LightningDataModule):
+    """Lightning DataModule for MicroSplit-style prediction datasets.
+    Matches the interface of PredictDataModule, but internally uses MicroSplit
+    dataset logic for prediction.
+    Parameters
+    ----------
+    pred_config : MicroSplitDataConfig
+        Configuration for MicroSplit prediction.
+    pred_data : str or Path or numpy.ndarray
+        Prediction data, can be a path to a folder, a file or a numpy array.
+    read_source_func : Callable, optional
+        Function to read custom types.
+    extension_filter : str, optional
+        Filter to filter file extensions for custom types.
+    dataloader_params : dict, optional
+        Dataloader parameters.
+    """
+    def __init__(
+        self,
+        pred_config: MicroSplitDataConfig,
+        pred_data: Union[str, Path, NDArray],
+        read_source_func: Callable | None = None,
+        extension_filter: str = "",
+        dataloader_params: dict | None = None,
+    ) -> None:
+        """
+        Constructor for MicroSplit prediction data module.
+        Parameters
+        ----------
+        pred_config : MicroSplitDataConfig
+            Configuration for MicroSplit prediction.
+        pred_data : str or Path or numpy.ndarray
+            Prediction data, can be a path to a folder, a file or a numpy array.
+        read_source_func : Callable, optional
+            Function to read custom types, by default None.
+        extension_filter : str, optional
+            Filter to filter file extensions for custom types, by default "".
+        dataloader_params : dict, optional
+            Dataloader parameters, by default {}.
+        """
+        super().__init__()
+        if dataloader_params is None:
+            dataloader_params = {}
+        self.pred_config = pred_config
+        self.pred_data = pred_data
+        self.read_source_func = read_source_func or get_train_val_data
+        self.extension_filter = extension_filter
+        self.dataloader_params = dataloader_params
+    def prepare_data(self) -> None:
+        """Hook used to prepare the data before calling `setup`."""
+        # # TODO currently data preparation is handled in dataset creation, revisit!
+        pass
+    def setup(self, stage: str | None = None) -> None:
+        """
+        Hook called at the beginning of predict.
+        Parameters
+        ----------
+        stage : Optional[str], optional
+            Stage, by default None.
+        """
+        # Create prediction dataset using LCMultiChDloader
+        self.predict_dataset = LCMultiChDloader(
+            self.pred_config,
+            self.pred_data,
+            load_data_fn=self.read_source_func,
+            val_fraction=0.0,  # No validation split for prediction
+            test_fraction=1.0,  # No test split for prediction
+        )
+        self.predict_dataset.set_mean_std(*self.pred_config.data_stats)
+    def predict_dataloader(self) -> DataLoader:
+        """
+        Create a dataloader for prediction.
+        Returns
+        -------
+        DataLoader
+            Prediction dataloader.
+        """
+        return DataLoader(
+            self.predict_dataset,
+            batch_size=self.pred_config.batch_size,
+            **self.dataloader_params,
+        )
+def create_microsplit_predict_datamodule(
+    pred_data: Union[str, Path, NDArray],
+    tile_size: tuple,
+    data_type: DataType,
+    axes: str,
+    batch_size: int = 1,
+    num_channels: int = 2,
+    depth3D: int = 1,
+    grid_size: int | None = None,
+    multiscale_count: int | None = None,
+    data_stats: tuple | None = None,
+    tiling_mode: TilingMode = TilingMode.ShiftBoundary,
+    read_source_func: Callable | None = None,
+    extension_filter: str = "",
+    dataloader_params: dict | None = None,
+    **dataset_kwargs,
+) -> MicroSplitPredictDataModule:
+    """
+    Create a MicroSplitPredictDataModule for microSplit-style prediction datasets.
+    Parameters
+    ----------
+    pred_data : str or Path or numpy.ndarray
+        Prediction data, can be a path to a folder, a file or a numpy array.
+    tile_size : tuple
+        Size of one tile of data.
+    data_type : DataType
+        Type of the dataset (must be a DataType enum value).
+    axes : str
+        Axes of the data (e.g., 'SYX').
+    batch_size : int, default=1
+        Batch size for prediction dataloader.
+    num_channels : int, default=2
+        Number of channels in the input.
+    depth3D : int, default=1
+        Number of slices in 3D.
+    grid_size : tuple, optional
+        Grid size for patch extraction.
+    multiscale_count : int, optional
+        Number of LC scales.
+    data_stats : tuple, optional
+        Data statistics, by default None.
+    tiling_mode : TilingMode, default=ShiftBoundary
+        Tiling mode for patch extraction.
+    read_source_func : Callable, optional
+        Function to read the source data.
+    extension_filter : str, optional
+        File extension filter.
+    dataloader_params : dict, optional
+        Parameters for prediction dataloader.
+    **dataset_kwargs :
+        Additional arguments passed to MicroSplitDataConfig.
+    Returns
+    -------
+    MicroSplitPredictDataModule
+        Configured MicroSplitPredictDataModule instance.
+    """
+    if dataloader_params is None:
+        dataloader_params = {}
+    # Create prediction config with only valid parameters
+    prediction_config_params = {
+        "data_type": data_type,
+        "image_size": tile_size,
+        "num_channels": num_channels,
+        "depth3D": depth3D,
+        "grid_size": grid_size,
+        "multiscale_lowres_count": multiscale_count,
+        "data_stats": data_stats,
+        "tiling_mode": tiling_mode,
+        "batch_size": batch_size,
+        "datasplit_type": DataSplitType.Test,  # For prediction, use all data
+        **dataset_kwargs,
+    }
+    pred_config = MicroSplitDataConfig(**prediction_config_params)
+    # Remove batch_size from dataloader_params if present
+    if "batch_size" in dataloader_params:
+        del dataloader_params["batch_size"]
+    return MicroSplitPredictDataModule(
+        pred_config=pred_config,
+        pred_data=pred_data,
+        read_source_func=(
+            read_source_func if read_source_func is not None else get_train_val_data
+        ),
+        extension_filter=extension_filter,
+        dataloader_params=dataloader_params,
+    )