PyPI - careamics - Versions diffs - 0.0.19__py3-none-any.whl - Mend

careamics 0.0.19__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (279) hide show

careamics/__init__.py +24 -0
careamics/careamist.py +961 -0
careamics/cli/__init__.py +5 -0
careamics/cli/conf.py +394 -0
careamics/cli/main.py +234 -0
careamics/cli/utils.py +27 -0
careamics/config/__init__.py +66 -0
careamics/config/algorithms/__init__.py +21 -0
careamics/config/algorithms/care_algorithm_config.py +122 -0
careamics/config/algorithms/hdn_algorithm_config.py +103 -0
careamics/config/algorithms/microsplit_algorithm_config.py +103 -0
careamics/config/algorithms/n2n_algorithm_config.py +115 -0
careamics/config/algorithms/n2v_algorithm_config.py +296 -0
careamics/config/algorithms/pn2v_algorithm_config.py +301 -0
careamics/config/algorithms/unet_algorithm_config.py +91 -0
careamics/config/algorithms/vae_algorithm_config.py +178 -0
careamics/config/architectures/__init__.py +7 -0
careamics/config/architectures/architecture_config.py +37 -0
careamics/config/architectures/lvae_config.py +262 -0
careamics/config/architectures/unet_config.py +125 -0
careamics/config/configuration.py +367 -0
careamics/config/configuration_factories.py +2400 -0
careamics/config/data/__init__.py +27 -0
careamics/config/data/data_config.py +472 -0
careamics/config/data/inference_config.py +237 -0
careamics/config/data/ng_data_config.py +1038 -0
careamics/config/data/patch_filter/__init__.py +15 -0
careamics/config/data/patch_filter/filter_config.py +16 -0
careamics/config/data/patch_filter/mask_filter_config.py +17 -0
careamics/config/data/patch_filter/max_filter_config.py +15 -0
careamics/config/data/patch_filter/meanstd_filter_config.py +18 -0
careamics/config/data/patch_filter/shannon_filter_config.py +15 -0
careamics/config/data/patching_strategies/__init__.py +15 -0
careamics/config/data/patching_strategies/_overlapping_patched_config.py +102 -0
careamics/config/data/patching_strategies/_patched_config.py +56 -0
careamics/config/data/patching_strategies/random_patching_config.py +45 -0
careamics/config/data/patching_strategies/sequential_patching_config.py +25 -0
careamics/config/data/patching_strategies/tiled_patching_config.py +40 -0
careamics/config/data/patching_strategies/whole_patching_config.py +12 -0
careamics/config/data/tile_information.py +65 -0
careamics/config/lightning/__init__.py +15 -0
careamics/config/lightning/callbacks/__init__.py +8 -0
careamics/config/lightning/callbacks/callback_config.py +116 -0
careamics/config/lightning/optimizer_configs.py +186 -0
careamics/config/lightning/training_config.py +70 -0
careamics/config/losses/__init__.py +8 -0
careamics/config/losses/loss_config.py +60 -0
careamics/config/ng_configs/__init__.py +5 -0
careamics/config/ng_configs/n2v_configuration.py +64 -0
careamics/config/ng_configs/ng_configuration.py +256 -0
careamics/config/ng_factories/__init__.py +9 -0
careamics/config/ng_factories/algorithm_factory.py +120 -0
careamics/config/ng_factories/data_factory.py +154 -0
careamics/config/ng_factories/n2v_factory.py +256 -0
careamics/config/ng_factories/training_factory.py +69 -0
careamics/config/noise_model/__init__.py +12 -0
careamics/config/noise_model/likelihood_config.py +60 -0
careamics/config/noise_model/noise_model_config.py +149 -0
careamics/config/support/__init__.py +31 -0
careamics/config/support/supported_activations.py +27 -0
careamics/config/support/supported_algorithms.py +40 -0
careamics/config/support/supported_architectures.py +13 -0
careamics/config/support/supported_data.py +122 -0
careamics/config/support/supported_filters.py +17 -0
careamics/config/support/supported_loggers.py +10 -0
careamics/config/support/supported_losses.py +32 -0
careamics/config/support/supported_optimizers.py +57 -0
careamics/config/support/supported_patching_strategies.py +22 -0
careamics/config/support/supported_pixel_manipulations.py +15 -0
careamics/config/support/supported_struct_axis.py +21 -0
careamics/config/support/supported_transforms.py +12 -0
careamics/config/transformations/__init__.py +22 -0
careamics/config/transformations/n2v_manipulate_config.py +79 -0
careamics/config/transformations/normalize_config.py +59 -0
careamics/config/transformations/transform_config.py +45 -0
careamics/config/transformations/transform_unions.py +29 -0
careamics/config/transformations/xy_flip_config.py +43 -0
careamics/config/transformations/xy_random_rotate90_config.py +35 -0
careamics/config/utils/__init__.py +8 -0
careamics/config/utils/configuration_io.py +85 -0
careamics/config/validators/__init__.py +18 -0
careamics/config/validators/axes_validators.py +90 -0
careamics/config/validators/model_validators.py +84 -0
careamics/config/validators/patch_validators.py +55 -0
careamics/conftest.py +39 -0
careamics/dataset/__init__.py +17 -0
careamics/dataset/dataset_utils/__init__.py +19 -0
careamics/dataset/dataset_utils/dataset_utils.py +118 -0
careamics/dataset/dataset_utils/file_utils.py +141 -0
careamics/dataset/dataset_utils/iterate_over_files.py +84 -0
careamics/dataset/dataset_utils/running_stats.py +189 -0
careamics/dataset/in_memory_dataset.py +303 -0
careamics/dataset/in_memory_pred_dataset.py +88 -0
careamics/dataset/in_memory_tiled_pred_dataset.py +131 -0
careamics/dataset/iterable_dataset.py +294 -0
careamics/dataset/iterable_pred_dataset.py +121 -0
careamics/dataset/iterable_tiled_pred_dataset.py +141 -0
careamics/dataset/patching/__init__.py +1 -0
careamics/dataset/patching/patching.py +300 -0
careamics/dataset/patching/random_patching.py +110 -0
careamics/dataset/patching/sequential_patching.py +212 -0
careamics/dataset/patching/validate_patch_dimension.py +64 -0
careamics/dataset/tiling/__init__.py +10 -0
careamics/dataset/tiling/collate_tiles.py +33 -0
careamics/dataset/tiling/lvae_tiled_patching.py +375 -0
careamics/dataset/tiling/tiled_patching.py +166 -0
careamics/dataset_ng/README.md +212 -0
careamics/dataset_ng/__init__.py +0 -0
careamics/dataset_ng/dataset.py +365 -0
careamics/dataset_ng/demos/bsd68_demo.ipynb +361 -0
careamics/dataset_ng/demos/bsd68_zarr_demo.ipynb +453 -0
careamics/dataset_ng/demos/care_U2OS_demo.ipynb +330 -0
careamics/dataset_ng/demos/demo_custom_image_stack.ipynb +736 -0
careamics/dataset_ng/demos/demo_datamodule.ipynb +447 -0
careamics/dataset_ng/demos/demo_dataset.ipynb +278 -0
careamics/dataset_ng/demos/demo_patch_extractor.py +51 -0
careamics/dataset_ng/demos/mouse_nuclei_demo.ipynb +293 -0
careamics/dataset_ng/factory.py +180 -0
careamics/dataset_ng/grouped_index_sampler.py +73 -0
careamics/dataset_ng/image_stack/__init__.py +14 -0
careamics/dataset_ng/image_stack/czi_image_stack.py +396 -0
careamics/dataset_ng/image_stack/file_image_stack.py +140 -0
careamics/dataset_ng/image_stack/image_stack_protocol.py +93 -0
careamics/dataset_ng/image_stack/image_utils/__init__.py +6 -0
careamics/dataset_ng/image_stack/image_utils/image_stack_utils.py +125 -0
careamics/dataset_ng/image_stack/in_memory_image_stack.py +93 -0
careamics/dataset_ng/image_stack/zarr_image_stack.py +170 -0
careamics/dataset_ng/image_stack_loader/__init__.py +19 -0
careamics/dataset_ng/image_stack_loader/image_stack_loader_protocol.py +70 -0
careamics/dataset_ng/image_stack_loader/image_stack_loaders.py +273 -0
careamics/dataset_ng/image_stack_loader/zarr_utils.py +130 -0
careamics/dataset_ng/legacy_interoperability.py +175 -0
careamics/dataset_ng/microsplit_input_synth.py +377 -0
careamics/dataset_ng/patch_extractor/__init__.py +7 -0
careamics/dataset_ng/patch_extractor/limit_file_extractor.py +50 -0
careamics/dataset_ng/patch_extractor/patch_construction.py +151 -0
careamics/dataset_ng/patch_extractor/patch_extractor.py +117 -0
careamics/dataset_ng/patch_filter/__init__.py +20 -0
careamics/dataset_ng/patch_filter/coordinate_filter_protocol.py +27 -0
careamics/dataset_ng/patch_filter/filter_factory.py +95 -0
careamics/dataset_ng/patch_filter/mask_filter.py +96 -0
careamics/dataset_ng/patch_filter/max_filter.py +188 -0
careamics/dataset_ng/patch_filter/mean_std_filter.py +218 -0
careamics/dataset_ng/patch_filter/patch_filter_protocol.py +50 -0
careamics/dataset_ng/patch_filter/shannon_filter.py +188 -0
careamics/dataset_ng/patching_strategies/__init__.py +26 -0
careamics/dataset_ng/patching_strategies/patching_strategy_factory.py +50 -0
careamics/dataset_ng/patching_strategies/patching_strategy_protocol.py +161 -0
careamics/dataset_ng/patching_strategies/random_patching.py +393 -0
careamics/dataset_ng/patching_strategies/sequential_patching.py +99 -0
careamics/dataset_ng/patching_strategies/tiling_strategy.py +207 -0
careamics/dataset_ng/patching_strategies/whole_sample.py +61 -0
careamics/file_io/__init__.py +15 -0
careamics/file_io/read/__init__.py +11 -0
careamics/file_io/read/get_func.py +57 -0
careamics/file_io/read/tiff.py +58 -0
careamics/file_io/write/__init__.py +15 -0
careamics/file_io/write/get_func.py +63 -0
careamics/file_io/write/tiff.py +40 -0
careamics/lightning/__init__.py +32 -0
careamics/lightning/callbacks/__init__.py +13 -0
careamics/lightning/callbacks/data_stats_callback.py +33 -0
careamics/lightning/callbacks/hyperparameters_callback.py +49 -0
careamics/lightning/callbacks/prediction_writer_callback/__init__.py +20 -0
careamics/lightning/callbacks/prediction_writer_callback/file_path_utils.py +56 -0
careamics/lightning/callbacks/prediction_writer_callback/prediction_writer_callback.py +234 -0
careamics/lightning/callbacks/prediction_writer_callback/write_strategy.py +399 -0
careamics/lightning/callbacks/prediction_writer_callback/write_strategy_factory.py +215 -0
careamics/lightning/callbacks/progress_bar_callback.py +90 -0
careamics/lightning/dataset_ng/__init__.py +1 -0
careamics/lightning/dataset_ng/callbacks/__init__.py +1 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/__init__.py +29 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/cached_tiles_strategy.py +164 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/file_path_utils.py +33 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/prediction_writer_callback.py +219 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_image_strategy.py +91 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_strategy.py +27 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_strategy_factory.py +214 -0
careamics/lightning/dataset_ng/callbacks/prediction_writer/write_tiles_zarr_strategy.py +375 -0
careamics/lightning/dataset_ng/data_module.py +529 -0
careamics/lightning/dataset_ng/data_module_utils.py +395 -0
careamics/lightning/dataset_ng/lightning_modules/__init__.py +9 -0
careamics/lightning/dataset_ng/lightning_modules/care_module.py +97 -0
careamics/lightning/dataset_ng/lightning_modules/n2v_module.py +106 -0
careamics/lightning/dataset_ng/lightning_modules/unet_module.py +221 -0
careamics/lightning/dataset_ng/prediction/__init__.py +16 -0
careamics/lightning/dataset_ng/prediction/convert_prediction.py +198 -0
careamics/lightning/dataset_ng/prediction/stitch_prediction.py +171 -0
careamics/lightning/lightning_module.py +914 -0
careamics/lightning/microsplit_data_module.py +632 -0
careamics/lightning/predict_data_module.py +341 -0
careamics/lightning/train_data_module.py +666 -0
careamics/losses/__init__.py +21 -0
careamics/losses/fcn/__init__.py +1 -0
careamics/losses/fcn/losses.py +125 -0
careamics/losses/loss_factory.py +80 -0
careamics/losses/lvae/__init__.py +1 -0
careamics/losses/lvae/loss_utils.py +83 -0
careamics/losses/lvae/losses.py +589 -0
careamics/lvae_training/__init__.py +0 -0
careamics/lvae_training/calibration.py +191 -0
careamics/lvae_training/dataset/__init__.py +20 -0
careamics/lvae_training/dataset/config.py +135 -0
careamics/lvae_training/dataset/lc_dataset.py +274 -0
careamics/lvae_training/dataset/ms_dataset_ref.py +1067 -0
careamics/lvae_training/dataset/multich_dataset.py +1121 -0
careamics/lvae_training/dataset/multicrop_dset.py +196 -0
careamics/lvae_training/dataset/multifile_dataset.py +335 -0
careamics/lvae_training/dataset/types.py +32 -0
careamics/lvae_training/dataset/utils/__init__.py +0 -0
careamics/lvae_training/dataset/utils/data_utils.py +114 -0
careamics/lvae_training/dataset/utils/empty_patch_fetcher.py +65 -0
careamics/lvae_training/dataset/utils/index_manager.py +491 -0
careamics/lvae_training/dataset/utils/index_switcher.py +165 -0
careamics/lvae_training/eval_utils.py +987 -0
careamics/lvae_training/get_config.py +84 -0
careamics/lvae_training/lightning_module.py +701 -0
careamics/lvae_training/metrics.py +214 -0
careamics/lvae_training/train_lvae.py +342 -0
careamics/lvae_training/train_utils.py +121 -0
careamics/model_io/__init__.py +7 -0
careamics/model_io/bioimage/__init__.py +11 -0
careamics/model_io/bioimage/_readme_factory.py +113 -0
careamics/model_io/bioimage/bioimage_utils.py +56 -0
careamics/model_io/bioimage/cover_factory.py +171 -0
careamics/model_io/bioimage/model_description.py +341 -0
careamics/model_io/bmz_io.py +251 -0
careamics/model_io/model_io_utils.py +95 -0
careamics/models/__init__.py +5 -0
careamics/models/activation.py +40 -0
careamics/models/layers.py +495 -0
careamics/models/lvae/__init__.py +3 -0
careamics/models/lvae/layers.py +1371 -0
careamics/models/lvae/likelihoods.py +394 -0
careamics/models/lvae/lvae.py +848 -0
careamics/models/lvae/noise_models.py +738 -0
careamics/models/lvae/stochastic.py +394 -0
careamics/models/lvae/utils.py +404 -0
careamics/models/model_factory.py +54 -0
careamics/models/unet.py +449 -0
careamics/nm_training_placeholder.py +203 -0
careamics/prediction_utils/__init__.py +21 -0
careamics/prediction_utils/lvae_prediction.py +158 -0
careamics/prediction_utils/lvae_tiling_manager.py +362 -0
careamics/prediction_utils/prediction_outputs.py +238 -0
careamics/prediction_utils/stitch_prediction.py +193 -0
careamics/py.typed +5 -0
careamics/transforms/__init__.py +22 -0
careamics/transforms/compose.py +173 -0
careamics/transforms/n2v_manipulate.py +150 -0
careamics/transforms/n2v_manipulate_torch.py +149 -0
careamics/transforms/normalize.py +374 -0
careamics/transforms/pixel_manipulation.py +406 -0
careamics/transforms/pixel_manipulation_torch.py +388 -0
careamics/transforms/struct_mask_parameters.py +20 -0
careamics/transforms/transform.py +24 -0
careamics/transforms/tta.py +88 -0
careamics/transforms/xy_flip.py +131 -0
careamics/transforms/xy_random_rotate90.py +108 -0
careamics/utils/__init__.py +19 -0
careamics/utils/autocorrelation.py +40 -0
careamics/utils/base_enum.py +60 -0
careamics/utils/context.py +67 -0
careamics/utils/deprecation.py +63 -0
careamics/utils/lightning_utils.py +71 -0
careamics/utils/logging.py +323 -0
careamics/utils/metrics.py +394 -0
careamics/utils/path_utils.py +26 -0
careamics/utils/plotting.py +76 -0
careamics/utils/ram.py +15 -0
careamics/utils/receptive_field.py +108 -0
careamics/utils/serializers.py +62 -0
careamics/utils/torch_utils.py +150 -0
careamics/utils/version.py +38 -0
careamics-0.0.19.dist-info/METADATA +80 -0
careamics-0.0.19.dist-info/RECORD +279 -0
careamics-0.0.19.dist-info/WHEEL +4 -0
careamics-0.0.19.dist-info/entry_points.txt +2 -0
careamics-0.0.19.dist-info/licenses/LICENSE +28 -0

careamics/lightning/train_data_module.py ADDED Viewed

@@ -0,0 +1,666 @@
+"""Training and validation Lightning data modules."""
+from collections.abc import Callable
+from pathlib import Path
+from typing import Any, Literal, Union
+import numpy as np
+import pytorch_lightning as L
+from numpy.typing import NDArray
+from torch.utils.data import DataLoader, IterableDataset
+from careamics.config.data import DataConfig
+from careamics.config.support import SupportedData
+from careamics.config.transformations import TransformConfig
+from careamics.dataset.dataset_utils import (
+    get_files_size,
+    list_files,
+    validate_source_target_files,
+)
+from careamics.dataset.in_memory_dataset import (
+    InMemoryDataset,
+)
+from careamics.dataset.iterable_dataset import (
+    PathIterableDataset,
+)
+from careamics.file_io.read import get_read_func
+from careamics.utils import get_logger, get_ram_size
+DatasetType = Union[InMemoryDataset, PathIterableDataset]
+logger = get_logger(__name__)
+class TrainDataModule(L.LightningDataModule):
+    """
+    CAREamics Ligthning training and validation data module.
+    The data module can be used with Path, str or numpy arrays. In the case of
+    numpy arrays, it loads and computes all the patches in memory. For Path and str
+    inputs, it calculates the total file size and estimate whether it can fit in
+    memory. If it does not, it iterates through the files. This behaviour can be
+    deactivated by setting `use_in_memory` to False, in which case it will
+    always use the iterating dataset to train on a Path or str.
+    The data can be either a folder containing images or a single file.
+    Validation can be omitted, in which case the validation data is extracted from
+    the training data. The percentage of the training data to use for validation,
+    as well as the minimum number of patches or files to split from the training
+    data can be set using `val_percentage` and `val_minimum_split`, respectively.
+    To read custom data types, you can set `data_type` to `custom` in `data_config`
+    and provide a function that returns a numpy array from a path as
+    `read_source_func` parameter. The function will receive a Path object and
+    an axies string as arguments, the axes being derived from the `data_config`.
+    You can also provide a `fnmatch` and `Path.rglob` compatible expression (e.g.
+    "*.czi") to filter the files extension using `extension_filter`.
+    Parameters
+    ----------
+    data_config : DataModel
+        Pydantic model for CAREamics data configuration.
+    train_data : pathlib.Path or str or numpy.ndarray
+        Training data, can be a path to a folder, a file or a numpy array.
+    val_data : pathlib.Path or str or numpy.ndarray, optional
+        Validation data, can be a path to a folder, a file or a numpy array, by
+        default None.
+    train_data_target : pathlib.Path or str or numpy.ndarray, optional
+        Training target data, can be a path to a folder, a file or a numpy array, by
+        default None.
+    val_data_target : pathlib.Path or str or numpy.ndarray, optional
+        Validation target data, can be a path to a folder, a file or a numpy array,
+        by default None.
+    read_source_func : Callable, optional
+        Function to read the source data, by default None. Only used for `custom`
+        data type (see DataModel).
+    extension_filter : str, optional
+        Filter for file extensions, by default "". Only used for `custom` data types
+        (see DataModel).
+    val_percentage : float, optional
+        Percentage of the training data to use for validation, by default 0.1. Only
+        used if `val_data` is None.
+    val_minimum_split : int, optional
+        Minimum number of patches or files to split from the training data for
+        validation, by default 5. Only used if `val_data` is None.
+    use_in_memory : bool, optional
+        Use in memory dataset if possible, by default True.
+    Attributes
+    ----------
+    data_config : DataModel
+        CAREamics data configuration.
+    data_type : SupportedData
+        Expected data type, one of "tiff", "array" or "custom".
+    batch_size : int
+        Batch size.
+    use_in_memory : bool
+        Whether to use in memory dataset if possible.
+    train_data : pathlib.Path or numpy.ndarray
+        Training data.
+    val_data : pathlib.Path or numpy.ndarray
+        Validation data.
+    train_data_target : pathlib.Path or numpy.ndarray
+        Training target data.
+    val_data_target : pathlib.Path or numpy.ndarray
+        Validation target data.
+    val_percentage : float
+        Percentage of the training data to use for validation, if no validation data is
+        provided.
+    val_minimum_split : int
+        Minimum number of patches or files to split from the training data for
+        validation, if no validation data is provided.
+    read_source_func : Optional[Callable]
+        Function to read the source data, used if `data_type` is `custom`.
+    extension_filter : str
+        Filter for file extensions, used if `data_type` is `custom`.
+    """
+    def __init__(
+        self,
+        data_config: DataConfig,
+        train_data: Union[Path, str, NDArray],
+        val_data: Union[Path, str, NDArray] | None = None,
+        train_data_target: Union[Path, str, NDArray] | None = None,
+        val_data_target: Union[Path, str, NDArray] | None = None,
+        read_source_func: Callable | None = None,
+        extension_filter: str = "",
+        val_percentage: float = 0.1,
+        val_minimum_split: int = 5,
+        use_in_memory: bool = True,
+    ) -> None:
+        """
+        Constructor.
+        Parameters
+        ----------
+        data_config : DataModel
+            Pydantic model for CAREamics data configuration.
+        train_data : pathlib.Path or str or numpy.ndarray
+            Training data, can be a path to a folder, a file or a numpy array.
+        val_data : pathlib.Path or str or numpy.ndarray, optional
+            Validation data, can be a path to a folder, a file or a numpy array, by
+            default None.
+        train_data_target : pathlib.Path or str or numpy.ndarray, optional
+            Training target data, can be a path to a folder, a file or a numpy array, by
+            default None.
+        val_data_target : pathlib.Path or str or numpy.ndarray, optional
+            Validation target data, can be a path to a folder, a file or a numpy array,
+            by default None.
+        read_source_func : Callable, optional
+            Function to read the source data, by default None. Only used for `custom`
+            data type (see DataModel).
+        extension_filter : str, optional
+            Filter for file extensions, by default "". Only used for `custom` data types
+            (see DataModel).
+        val_percentage : float, optional
+            Percentage of the training data to use for validation, by default 0.1. Only
+            used if `val_data` is None.
+        val_minimum_split : int, optional
+            Minimum number of patches or files to split from the training data for
+            validation, by default 5. Only used if `val_data` is None.
+        use_in_memory : bool, optional
+            Use in memory dataset if possible, by default True.
+        Raises
+        ------
+        NotImplementedError
+            Raised if target data is provided.
+        ValueError
+            If the input types are mixed (e.g. Path and numpy.ndarray).
+        ValueError
+            If the data type is `custom` and no `read_source_func` is provided.
+        ValueError
+            If the data type is `array` and the input is not a numpy array.
+        ValueError
+            If the data type is `tiff` and the input is neither a Path nor a str.
+        """
+        super().__init__()
+        # check input types coherence (no mixed types)
+        inputs = [train_data, val_data, train_data_target, val_data_target]
+        types_set = {type(i) for i in inputs}
+        if len(types_set) > 2:  # None + expected type
+            raise ValueError(
+                f"Inputs for `train_data`, `val_data`, `train_data_target` and "
+                f"`val_data_target` must be of the same type or None. Got "
+                f"{types_set}."
+            )
+        # check that a read source function is provided for custom types
+        if data_config.data_type == SupportedData.CUSTOM and read_source_func is None:
+            raise ValueError(
+                f"Data type {SupportedData.CUSTOM} is not allowed without "
+                f"specifying a `read_source_func` and an `extension_filer`."
+            )
+        # check correct input type
+        if (
+            isinstance(train_data, np.ndarray)
+            and data_config.data_type != SupportedData.ARRAY
+        ):
+            raise ValueError(
+                f"Received a numpy array as input, but the data type was set to "
+                f"{data_config.data_type}. Set the data type in the configuration "
+                f"to {SupportedData.ARRAY} to train on numpy arrays."
+            )
+        # and that Path or str are passed, if tiff file type specified
+        elif (isinstance(train_data, Path) or isinstance(train_data, str)) and (
+            data_config.data_type != SupportedData.TIFF
+            and data_config.data_type != SupportedData.CUSTOM
+        ):
+            raise ValueError(
+                f"Received a path as input, but the data type was neither set to "
+                f"{SupportedData.TIFF} nor {SupportedData.CUSTOM}. Set the data type "
+                f"in the configuration to {SupportedData.TIFF} or "
+                f"{SupportedData.CUSTOM} to train on files."
+            )
+        # configuration
+        self.data_config: DataConfig = data_config
+        self.data_type: str = data_config.data_type
+        self.batch_size: int = data_config.batch_size
+        self.use_in_memory: bool = use_in_memory
+        # data: make data Path or np.ndarray, use type annotations for mypy
+        self.train_data: Union[Path, NDArray] = (
+            Path(train_data) if isinstance(train_data, str) else train_data
+        )
+        self.val_data: Union[Path, NDArray] = (
+            Path(val_data) if isinstance(val_data, str) else val_data
+        )
+        self.train_data_target: Union[Path, NDArray] = (
+            Path(train_data_target)
+            if isinstance(train_data_target, str)
+            else train_data_target
+        )
+        self.val_data_target: Union[Path, NDArray] = (
+            Path(val_data_target)
+            if isinstance(val_data_target, str)
+            else val_data_target
+        )
+        # validation split
+        self.val_percentage = val_percentage
+        self.val_minimum_split = val_minimum_split
+        # read source function corresponding to the requested type
+        if data_config.data_type == SupportedData.CUSTOM.value:
+            # mypy check
+            assert read_source_func is not None
+            self.read_source_func: Callable = read_source_func
+        elif data_config.data_type != SupportedData.ARRAY:
+            self.read_source_func = get_read_func(data_config.data_type)
+        self.extension_filter: str = extension_filter
+    def prepare_data(self) -> None:
+        """
+        Hook used to prepare the data before calling `setup`.
+        Here, we only need to examine the data if it was provided as a str or a Path.
+        TODO: from lightning doc:
+        prepare_data is called from the main process. It is not recommended to assign
+        state here (e.g. self.x = y) since it is called on a single process and if you
+        assign states here then they won't be available for other processes.
+        https://lightning.ai/docs/pytorch/stable/data/datamodule.html
+        """
+        # if the data is a Path or a str
+        if (
+            not isinstance(self.train_data, np.ndarray)
+            and not isinstance(self.val_data, np.ndarray)
+            and not isinstance(self.train_data_target, np.ndarray)
+            and not isinstance(self.val_data_target, np.ndarray)
+        ):
+            # list training files
+            self.train_files = list_files(
+                self.train_data, self.data_type, self.extension_filter
+            )
+            self.train_files_size = get_files_size(self.train_files)
+            # list validation files
+            if self.val_data is not None:
+                self.val_files = list_files(
+                    self.val_data, self.data_type, self.extension_filter
+                )
+            # same for target data
+            if self.train_data_target is not None:
+                self.train_target_files: list[Path] = list_files(
+                    self.train_data_target, self.data_type, self.extension_filter
+                )
+                # verify that they match the training data
+                validate_source_target_files(self.train_files, self.train_target_files)
+            if self.val_data_target is not None:
+                self.val_target_files = list_files(
+                    self.val_data_target, self.data_type, self.extension_filter
+                )
+                # verify that they match the validation data
+                validate_source_target_files(self.val_files, self.val_target_files)
+    def setup(self, *args: Any, **kwargs: Any) -> None:
+        """Hook called at the beginning of fit, validate, or predict.
+        Parameters
+        ----------
+        *args : Any
+            Unused.
+        **kwargs : Any
+            Unused.
+        """
+        # if numpy array
+        if self.data_type == SupportedData.ARRAY:
+            # mypy checks
+            assert isinstance(self.train_data, np.ndarray)
+            if self.train_data_target is not None:
+                assert isinstance(self.train_data_target, np.ndarray)
+            # train dataset
+            self.train_dataset: DatasetType = InMemoryDataset(
+                data_config=self.data_config,
+                inputs=self.train_data,
+                input_target=self.train_data_target,
+            )
+            # validation dataset
+            if self.val_data is not None:
+                # mypy checks
+                assert isinstance(self.val_data, np.ndarray)
+                if self.val_data_target is not None:
+                    assert isinstance(self.val_data_target, np.ndarray)
+                # create its own dataset
+                self.val_dataset: DatasetType = InMemoryDataset(
+                    data_config=self.data_config,
+                    inputs=self.val_data,
+                    input_target=self.val_data_target,
+                )
+            else:
+                # extract validation from the training patches
+                self.val_dataset = self.train_dataset.split_dataset(
+                    percentage=self.val_percentage,
+                    minimum_patches=self.val_minimum_split,
+                )
+        # else we read files
+        else:
+            # Heuristics, if the file size is smaller than 80% of the RAM,
+            # we run the training in memory, otherwise we switch to iterable dataset
+            # The switch is deactivated if use_in_memory is False
+            if self.use_in_memory and self.train_files_size < get_ram_size() * 0.8:
+                # train dataset
+                self.train_dataset = InMemoryDataset(
+                    data_config=self.data_config,
+                    inputs=self.train_files,
+                    input_target=(
+                        self.train_target_files if self.train_data_target else None
+                    ),
+                    read_source_func=self.read_source_func,
+                )
+                # validation dataset
+                if self.val_data is not None:
+                    self.val_dataset = InMemoryDataset(
+                        data_config=self.data_config,
+                        inputs=self.val_files,
+                        input_target=(
+                            self.val_target_files if self.val_data_target else None
+                        ),
+                        read_source_func=self.read_source_func,
+                    )
+                else:
+                    # split dataset
+                    self.val_dataset = self.train_dataset.split_dataset(
+                        percentage=self.val_percentage,
+                        minimum_patches=self.val_minimum_split,
+                    )
+            # else if the data is too large, load file by file during training
+            else:
+                # create training dataset
+                self.train_dataset = PathIterableDataset(
+                    data_config=self.data_config,
+                    src_files=self.train_files,
+                    target_files=(
+                        self.train_target_files if self.train_data_target else None
+                    ),
+                    read_source_func=self.read_source_func,
+                )
+                # create validation dataset
+                if self.val_data is not None:
+                    # create its own dataset
+                    self.val_dataset = PathIterableDataset(
+                        data_config=self.data_config,
+                        src_files=self.val_files,
+                        target_files=(
+                            self.val_target_files if self.val_data_target else None
+                        ),
+                        read_source_func=self.read_source_func,
+                    )
+                elif len(self.train_files) <= self.val_minimum_split:
+                    raise ValueError(
+                        f"Not enough files to split a minimum of "
+                        f"{self.val_minimum_split} files, got {len(self.train_files)} "
+                        f"files."
+                    )
+                else:
+                    # extract validation from the training patches
+                    self.val_dataset = self.train_dataset.split_dataset(
+                        percentage=self.val_percentage,
+                        minimum_number=self.val_minimum_split,
+                    )
+    def get_data_statistics(self) -> tuple[list[float], list[float]]:
+        """Return training data statistics.
+        Returns
+        -------
+        tuple of list
+            Means and standard deviations across channels of the training data.
+        """
+        return self.train_dataset.get_data_statistics()
+    def train_dataloader(self) -> Any:
+        """
+        Create a dataloader for training.
+        Returns
+        -------
+        Any
+            Training dataloader.
+        """
+        train_dataloader_params = self.data_config.train_dataloader_params.copy()
+        # NOTE: When next-gen datasets are completed this can be removed
+        # iterable dataset cannot be shuffled
+        if isinstance(self.train_dataset, IterableDataset):
+            del train_dataloader_params["shuffle"]
+        return DataLoader(
+            self.train_dataset,
+            batch_size=self.batch_size,
+            **train_dataloader_params,
+        )
+    def val_dataloader(self) -> Any:
+        """
+        Create a dataloader for validation.
+        Returns
+        -------
+        Any
+            Validation dataloader.
+        """
+        return DataLoader(
+            self.val_dataset,
+            batch_size=self.batch_size,
+            **self.data_config.val_dataloader_params,
+        )
+def create_train_datamodule(
+    train_data: Union[str, Path, NDArray],
+    data_type: Union[Literal["array", "tiff", "custom"], SupportedData],
+    patch_size: list[int],
+    axes: str,
+    batch_size: int,
+    val_data: Union[str, Path, NDArray] | None = None,
+    transforms: list[TransformConfig] | None = None,
+    train_target_data: Union[str, Path, NDArray] | None = None,
+    val_target_data: Union[str, Path, NDArray] | None = None,
+    read_source_func: Callable | None = None,
+    extension_filter: str = "",
+    val_percentage: float = 0.1,
+    val_minimum_patches: int = 5,
+    train_dataloader_params: dict | None = None,
+    val_dataloader_params: dict | None = None,
+    use_in_memory: bool = True,
+) -> TrainDataModule:
+    """Create a TrainDataModule.
+    This function is used to explicitly pass the parameters usually contained in a
+    `GenericDataConfig` to a TrainDataModule.
+    Since the lightning datamodule has no access to the model, make sure that the
+    parameters passed to the datamodule are consistent with the model's requirements and
+    are coherent.
+    The default augmentations are XY flip and XY rotation. To use a different set of
+    transformations, you can pass a list of transforms to `transforms`.
+    The data module can be used with Path, str or numpy arrays. In the case of
+    numpy arrays, it loads and computes all the patches in memory. For Path and str
+    inputs, it calculates the total file size and estimate whether it can fit in
+    memory. If it does not, it iterates through the files. This behaviour can be
+    deactivated by setting `use_in_memory` to False, in which case it will
+    always use the iterating dataset to train on a Path or str.
+    To use array data, set `data_type` to `array` and pass a numpy array to
+    `train_data`.
+    By default, CAREamics only supports types defined in
+    `careamics.config.support.SupportedData`. To read custom data types, you can set
+    `data_type` to `custom` and provide a function that returns a numpy array from a
+    path. Additionally, pass a `fnmatch` and `Path.rglob` compatible expression (e.g.
+    "*.jpeg") to filter the files extension using `extension_filter`.
+    In the absence of validation data, the validation data is extracted from the
+    training data. The percentage of the training data to use for validation, as well as
+    the minimum number of patches to split from the training data for validation can be
+    set using `val_percentage` and `val_minimum_patches`, respectively.
+    In `dataloader_params`, you can pass any parameter accepted by PyTorch dataloaders,
+    except for `batch_size`, which is set by the `batch_size` parameter.
+    Parameters
+    ----------
+    train_data : pathlib.Path or str or numpy.ndarray
+        Training data.
+    data_type : {"array", "tiff", "custom"}
+        Data type, see `SupportedData` for available options.
+    patch_size : list of int
+        Patch size, 2D or 3D patch size.
+    axes : str
+        Axes of the data, chosen amongst SCZYX.
+    batch_size : int
+        Batch size.
+    val_data : pathlib.Path or str or numpy.ndarray, optional
+        Validation data, by default None.
+    transforms : list of Transforms, optional
+        List of transforms to apply to training patches. If None, default transforms
+        are applied.
+    train_target_data : pathlib.Path or str or numpy.ndarray, optional
+        Training target data, by default None.
+    val_target_data : pathlib.Path or str or numpy.ndarray, optional
+        Validation target data, by default None.
+    read_source_func : Callable, optional
+        Function to read the source data, used if `data_type` is `custom`, by
+        default None.
+    extension_filter : str, optional
+        Filter for file extensions, used if `data_type` is `custom`, by default "".
+    val_percentage : float, optional
+        Percentage of the training data to use for validation if no validation data
+        is given, by default 0.1.
+    val_minimum_patches : int, optional
+        Minimum number of patches to split from the training data for validation if
+        no validation data is given, by default 5.
+    train_dataloader_params : dict, optional
+        Pytorch dataloader parameters for the training data, by default {}.
+    val_dataloader_params : dict, optional
+        Pytorch dataloader parameters for the validation data, by default {}.
+    use_in_memory : bool, optional
+        Use in memory dataset if possible, by default True.
+    Returns
+    -------
+    TrainDataModule
+        CAREamics training Lightning data module.
+    Examples
+    --------
+    Create a TrainingDataModule with default transforms with a numpy array:
+    >>> import numpy as np
+    >>> from careamics.lightning import create_train_datamodule
+    >>> my_array = np.arange(256).reshape(16, 16)
+    >>> data_module = create_train_datamodule(
+    ...     train_data=my_array,
+    ...     data_type="array",
+    ...     patch_size=(8, 8),
+    ...     axes='YX',
+    ...     batch_size=2,
+    ... )
+    For custom data types (those not supported by CAREamics), then one can pass a read
+    function and a filter for the files extension:
+    >>> import numpy as np
+    >>> from careamics.lightning import create_train_datamodule
+    >>>
+    >>> def read_npy(path):
+    ...     return np.load(path)
+    >>>
+    >>> data_module = create_train_datamodule(
+    ...     train_data="path/to/data",
+    ...     data_type="custom",
+    ...     patch_size=(8, 8),
+    ...     axes='YX',
+    ...     batch_size=2,
+    ...     read_source_func=read_npy,
+    ...     extension_filter="*.npy",
+    ... )
+    If you want to use a different set of transformations, you can pass a list of
+    transforms:
+    >>> import numpy as np
+    >>> from careamics.lightning import create_train_datamodule
+    >>> from careamics.config.transformations import XYFlipConfig
+    >>> from careamics.config.support import SupportedTransform
+    >>> my_array = np.arange(256).reshape(16, 16)
+    >>> my_transforms = [
+    ...     XYFlipConfig(flip_y=False),
+    ... ]
+    >>> data_module = create_train_datamodule(
+    ...     train_data=my_array,
+    ...     data_type="array",
+    ...     patch_size=(8, 8),
+    ...     axes='YX',
+    ...     batch_size=2,
+    ...     transforms=my_transforms,
+    ... )
+    """
+    if train_dataloader_params is None:
+        train_dataloader_params = {"shuffle": True}
+    if val_dataloader_params is None:
+        val_dataloader_params = {"shuffle": False}
+    data_dict: dict[str, Any] = {
+        "mode": "train",
+        "data_type": data_type,
+        "patch_size": patch_size,
+        "axes": axes,
+        "batch_size": batch_size,
+        "train_dataloader_params": train_dataloader_params,
+        "val_dataloader_params": val_dataloader_params,
+    }
+    # if transforms are passed (otherwise it will use the default ones)
+    if transforms is not None:
+        data_dict["transforms"] = transforms
+    # instantiate data configuration
+    data_config = DataConfig(**data_dict)
+    # sanity check on the dataloader parameters
+    if "batch_size" in train_dataloader_params:
+        # remove it
+        del train_dataloader_params["batch_size"]
+    if "batch_size" in val_dataloader_params:
+        # remove it
+        del val_dataloader_params["batch_size"]
+    return TrainDataModule(
+        data_config=data_config,
+        train_data=train_data,
+        val_data=val_data,
+        train_data_target=train_target_data,
+        val_data_target=val_target_data,
+        read_source_func=read_source_func,
+        extension_filter=extension_filter,
+        val_percentage=val_percentage,
+        val_minimum_split=val_minimum_patches,
+        use_in_memory=use_in_memory,
+    )

careamics/losses/__init__.py ADDED Viewed

@@ -0,0 +1,21 @@
+"""Losses module."""
+__all__ = [
+    "denoisplit_loss",
+    "denoisplit_musplit_loss",
+    "hdn_loss",
+    "loss_factory",
+    "mae_loss",
+    "mse_loss",
+    "musplit_loss",
+    "n2v_loss",
+]
+from .fcn.losses import mae_loss, mse_loss, n2v_loss
+from .loss_factory import loss_factory
+from .lvae.losses import (
+    denoisplit_loss,
+    denoisplit_musplit_loss,
+    hdn_loss,
+    musplit_loss,
+)

careamics/losses/fcn/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ """FCN losses."""