PyPI - anemoi-datasets - Versions diffs - 0.5.16__py3-none-any.whl → 0.5.17__py3-none-any.whl - Mend

anemoi-datasets 0.5.16py3-none-any.whl → 0.5.17py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (155) hide show

anemoi/datasets/__init__.py +4 -1
anemoi/datasets/__main__.py +12 -2
anemoi/datasets/_version.py +9 -4
anemoi/datasets/commands/cleanup.py +17 -2
anemoi/datasets/commands/compare.py +18 -2
anemoi/datasets/commands/copy.py +196 -14
anemoi/datasets/commands/create.py +50 -7
anemoi/datasets/commands/finalise-additions.py +17 -2
anemoi/datasets/commands/finalise.py +17 -2
anemoi/datasets/commands/init-additions.py +17 -2
anemoi/datasets/commands/init.py +16 -2
anemoi/datasets/commands/inspect.py +283 -62
anemoi/datasets/commands/load-additions.py +16 -2
anemoi/datasets/commands/load.py +16 -2
anemoi/datasets/commands/patch.py +17 -2
anemoi/datasets/commands/publish.py +17 -2
anemoi/datasets/commands/scan.py +31 -3
anemoi/datasets/compute/recentre.py +47 -11
anemoi/datasets/create/__init__.py +612 -85
anemoi/datasets/create/check.py +142 -20
anemoi/datasets/create/chunks.py +64 -4
anemoi/datasets/create/config.py +185 -21
anemoi/datasets/create/filter.py +50 -0
anemoi/datasets/create/filters/__init__.py +33 -0
anemoi/datasets/create/filters/empty.py +37 -0
anemoi/datasets/create/filters/legacy.py +93 -0
anemoi/datasets/create/filters/noop.py +37 -0
anemoi/datasets/create/filters/orog_to_z.py +58 -0
anemoi/datasets/create/{functions/filters → filters}/pressure_level_relative_humidity_to_specific_humidity.py +33 -10
anemoi/datasets/create/{functions/filters → filters}/pressure_level_specific_humidity_to_relative_humidity.py +32 -8
anemoi/datasets/create/filters/rename.py +205 -0
anemoi/datasets/create/{functions/filters → filters}/rotate_winds.py +43 -28
anemoi/datasets/create/{functions/filters → filters}/single_level_dewpoint_to_relative_humidity.py +32 -9
anemoi/datasets/create/{functions/filters → filters}/single_level_relative_humidity_to_dewpoint.py +33 -9
anemoi/datasets/create/{functions/filters → filters}/single_level_relative_humidity_to_specific_humidity.py +55 -7
anemoi/datasets/create/{functions/filters → filters}/single_level_specific_humidity_to_relative_humidity.py +98 -37
anemoi/datasets/create/filters/speeddir_to_uv.py +95 -0
anemoi/datasets/create/{functions/filters → filters}/sum.py +24 -27
anemoi/datasets/create/filters/transform.py +53 -0
anemoi/datasets/create/{functions/filters → filters}/unrotate_winds.py +27 -18
anemoi/datasets/create/filters/uv_to_speeddir.py +94 -0
anemoi/datasets/create/{functions/filters → filters}/wz_to_w.py +51 -33
anemoi/datasets/create/input/__init__.py +76 -5
anemoi/datasets/create/input/action.py +149 -13
anemoi/datasets/create/input/concat.py +81 -10
anemoi/datasets/create/input/context.py +39 -4
anemoi/datasets/create/input/data_sources.py +72 -6
anemoi/datasets/create/input/empty.py +21 -3
anemoi/datasets/create/input/filter.py +60 -12
anemoi/datasets/create/input/function.py +154 -37
anemoi/datasets/create/input/join.py +86 -14
anemoi/datasets/create/input/misc.py +67 -17
anemoi/datasets/create/input/pipe.py +33 -6
anemoi/datasets/create/input/repeated_dates.py +189 -41
anemoi/datasets/create/input/result.py +202 -87
anemoi/datasets/create/input/step.py +119 -22
anemoi/datasets/create/input/template.py +100 -13
anemoi/datasets/create/input/trace.py +62 -7
anemoi/datasets/create/patch.py +52 -4
anemoi/datasets/create/persistent.py +134 -17
anemoi/datasets/create/size.py +15 -1
anemoi/datasets/create/source.py +51 -0
anemoi/datasets/create/sources/__init__.py +36 -0
anemoi/datasets/create/{functions/sources → sources}/accumulations.py +296 -30
anemoi/datasets/create/{functions/sources → sources}/constants.py +27 -2
anemoi/datasets/create/{functions/sources → sources}/eccc_fstd.py +7 -3
anemoi/datasets/create/sources/empty.py +37 -0
anemoi/datasets/create/{functions/sources → sources}/forcings.py +25 -1
anemoi/datasets/create/sources/grib.py +297 -0
anemoi/datasets/create/{functions/sources → sources}/hindcasts.py +38 -4
anemoi/datasets/create/sources/legacy.py +93 -0
anemoi/datasets/create/{functions/sources → sources}/mars.py +168 -20
anemoi/datasets/create/sources/netcdf.py +42 -0
anemoi/datasets/create/sources/opendap.py +43 -0
anemoi/datasets/create/{functions/sources/__init__.py → sources/patterns.py} +35 -4
anemoi/datasets/create/sources/recentre.py +150 -0
anemoi/datasets/create/{functions/sources → sources}/source.py +27 -5
anemoi/datasets/create/{functions/sources → sources}/tendencies.py +64 -7
anemoi/datasets/create/sources/xarray.py +92 -0
anemoi/datasets/create/sources/xarray_kerchunk.py +36 -0
anemoi/datasets/create/sources/xarray_support/README.md +1 -0
anemoi/datasets/create/{functions/sources/xarray → sources/xarray_support}/__init__.py +109 -8
anemoi/datasets/create/sources/xarray_support/coordinates.py +442 -0
anemoi/datasets/create/{functions/sources/xarray → sources/xarray_support}/field.py +94 -16
anemoi/datasets/create/{functions/sources/xarray → sources/xarray_support}/fieldlist.py +90 -25
anemoi/datasets/create/sources/xarray_support/flavour.py +1036 -0
anemoi/datasets/create/{functions/sources/xarray → sources/xarray_support}/grid.py +92 -31
anemoi/datasets/create/sources/xarray_support/metadata.py +395 -0
anemoi/datasets/create/sources/xarray_support/patch.py +91 -0
anemoi/datasets/create/sources/xarray_support/time.py +391 -0
anemoi/datasets/create/sources/xarray_support/variable.py +331 -0
anemoi/datasets/create/sources/xarray_zarr.py +41 -0
anemoi/datasets/create/{functions/sources → sources}/zenodo.py +34 -5
anemoi/datasets/create/statistics/__init__.py +233 -44
anemoi/datasets/create/statistics/summary.py +52 -6
anemoi/datasets/create/testing.py +76 -0
anemoi/datasets/create/{functions/filters/noop.py → typing.py} +6 -3
anemoi/datasets/create/utils.py +97 -6
anemoi/datasets/create/writer.py +26 -4
anemoi/datasets/create/zarr.py +170 -23
anemoi/datasets/data/__init__.py +51 -4
anemoi/datasets/data/complement.py +191 -40
anemoi/datasets/data/concat.py +141 -16
anemoi/datasets/data/dataset.py +552 -61
anemoi/datasets/data/debug.py +197 -26
anemoi/datasets/data/ensemble.py +93 -8
anemoi/datasets/data/fill_missing.py +165 -18
anemoi/datasets/data/forwards.py +428 -56
anemoi/datasets/data/grids.py +323 -97
anemoi/datasets/data/indexing.py +112 -19
anemoi/datasets/data/interpolate.py +92 -12
anemoi/datasets/data/join.py +158 -19
anemoi/datasets/data/masked.py +129 -15
anemoi/datasets/data/merge.py +137 -23
anemoi/datasets/data/misc.py +172 -16
anemoi/datasets/data/missing.py +233 -29
anemoi/datasets/data/rescale.py +111 -10
anemoi/datasets/data/select.py +168 -26
anemoi/datasets/data/statistics.py +67 -6
anemoi/datasets/data/stores.py +149 -64
anemoi/datasets/data/subset.py +159 -25
anemoi/datasets/data/unchecked.py +168 -57
anemoi/datasets/data/xy.py +168 -25
anemoi/datasets/dates/__init__.py +191 -16
anemoi/datasets/dates/groups.py +189 -47
anemoi/datasets/grids.py +270 -31
anemoi/datasets/testing.py +28 -1
{anemoi_datasets-0.5.16.dist-info → anemoi_datasets-0.5.17.dist-info}/METADATA +9 -6
anemoi_datasets-0.5.17.dist-info/RECORD +137 -0
{anemoi_datasets-0.5.16.dist-info → anemoi_datasets-0.5.17.dist-info}/WHEEL +1 -1
anemoi/datasets/create/functions/__init__.py +0 -66
anemoi/datasets/create/functions/filters/__init__.py +0 -9
anemoi/datasets/create/functions/filters/empty.py +0 -17
anemoi/datasets/create/functions/filters/orog_to_z.py +0 -58
anemoi/datasets/create/functions/filters/rename.py +0 -79
anemoi/datasets/create/functions/filters/speeddir_to_uv.py +0 -78
anemoi/datasets/create/functions/filters/uv_to_speeddir.py +0 -56
anemoi/datasets/create/functions/sources/empty.py +0 -15
anemoi/datasets/create/functions/sources/grib.py +0 -150
anemoi/datasets/create/functions/sources/netcdf.py +0 -15
anemoi/datasets/create/functions/sources/opendap.py +0 -15
anemoi/datasets/create/functions/sources/recentre.py +0 -60
anemoi/datasets/create/functions/sources/xarray/coordinates.py +0 -255
anemoi/datasets/create/functions/sources/xarray/flavour.py +0 -472
anemoi/datasets/create/functions/sources/xarray/metadata.py +0 -148
anemoi/datasets/create/functions/sources/xarray/patch.py +0 -44
anemoi/datasets/create/functions/sources/xarray/time.py +0 -177
anemoi/datasets/create/functions/sources/xarray/variable.py +0 -188
anemoi/datasets/create/functions/sources/xarray_kerchunk.py +0 -42
anemoi/datasets/create/functions/sources/xarray_zarr.py +0 -15
anemoi/datasets/utils/fields.py +0 -47
anemoi_datasets-0.5.16.dist-info/RECORD +0 -129
{anemoi_datasets-0.5.16.dist-info → anemoi_datasets-0.5.17.dist-info}/entry_points.txt +0 -0
{anemoi_datasets-0.5.16.dist-info → anemoi_datasets-0.5.17.dist-info/licenses}/LICENSE +0 -0
{anemoi_datasets-0.5.16.dist-info → anemoi_datasets-0.5.17.dist-info}/top_level.txt +0 -0

anemoi/datasets/create/statistics/__init__.py CHANGED Viewed

@@ -16,10 +16,15 @@ import os
 import pickle
 import shutil
 import socket
+from typing import Any
+from typing import List
+from typing import Optional
+from typing import Union
 import numpy as np
 import tqdm
 from anemoi.utils.provenance import gather_provenance_info
+from numpy.typing import NDArray
 from ..check import check_data_values
 from .summary import Summary
@@ -27,15 +32,18 @@ from .summary import Summary
 LOG = logging.getLogger(__name__)
-def default_statistics_dates(dates):
+def default_statistics_dates(dates: list[datetime.datetime]) -> tuple[datetime.datetime, datetime.datetime]:
     """Calculate default statistics dates based on the given list of dates.
-    Args:
-        dates (list): List of datetime objects representing dates.
-    Returns:
-        tuple: A tuple containing the default start and end dates.
+    Parameters
+    ----------
+    dates : list of datetime.datetime
+        List of datetime objects representing dates.
+    Returns
+    -------
+    tuple of datetime.datetime
+        A tuple containing the default start and end dates.
     """
     def to_datetime(d):
@@ -69,7 +77,19 @@ def default_statistics_dates(dates):
     return dates[0], end
-def to_datetime(date):
+def to_datetime(date: Union[str, datetime.datetime]) -> np.datetime64:
+    """Convert a date to numpy datetime64 format.
+    Parameters
+    ----------
+    date : str or datetime.datetime
+        The date to convert.
+    Returns
+    -------
+    numpy.datetime64
+        The converted date.
+    """
     if isinstance(date, str):
         return np.datetime64(date)
     if isinstance(date, datetime.datetime):
@@ -77,11 +97,43 @@ def to_datetime(date):
     return date
-def to_datetimes(dates):
+def to_datetimes(dates: list[Union[str, datetime.datetime]]) -> list[np.datetime64]:
+    """Convert a list of dates to numpy datetime64 format.
+    Parameters
+    ----------
+    dates : list of str or datetime.datetime
+        List of dates to convert.
+    Returns
+    -------
+    list of numpy.datetime64
+        List of converted dates.
+    """
     return [to_datetime(d) for d in dates]
-def fix_variance(x, name, count, sums, squares):
+def fix_variance(x: float, name: str, count: NDArray[Any], sums: NDArray[Any], squares: NDArray[Any]) -> float:
+    """Fix negative variance values due to numerical errors.
+    Parameters
+    ----------
+    x : float
+        The variance value.
+    name : str
+        The variable name.
+    count : numpy.ndarray
+        The count array.
+    sums : numpy.ndarray
+        The sums array.
+    squares : numpy.ndarray
+        The squares array.
+    Returns
+    -------
+    float
+        The fixed variance value.
+    """
     assert count.shape == sums.shape == squares.shape
     assert isinstance(x, float)
@@ -112,7 +164,42 @@ def fix_variance(x, name, count, sums, squares):
     return 0
-def check_variance(x, variables_names, minimum, maximum, mean, count, sums, squares):
+def check_variance(
+    x: NDArray[Any],
+    variables_names: list[str],
+    minimum: NDArray[Any],
+    maximum: NDArray[Any],
+    mean: NDArray[Any],
+    count: NDArray[Any],
+    sums: NDArray[Any],
+    squares: NDArray[Any],
+) -> None:
+    """Check for negative variance values and raise an error if found.
+    Parameters
+    ----------
+    x : numpy.ndarray
+        The variance array.
+    variables_names : list of str
+        List of variable names.
+    minimum : numpy.ndarray
+        The minimum values array.
+    maximum : numpy.ndarray
+        The maximum values array.
+    mean : numpy.ndarray
+        The mean values array.
+    count : numpy.ndarray
+        The count array.
+    sums : numpy.ndarray
+        The sums array.
+    squares : numpy.ndarray
+        The squares array.
+    Raises
+    ------
+    ValueError
+        If negative variance is found.
+    """
     if (x >= 0).all():
         return
     print(x)
@@ -133,8 +220,25 @@ def check_variance(x, variables_names, minimum, maximum, mean, count, sums, squa
     raise ValueError("Negative variance")
-def compute_statistics(array, check_variables_names=None, allow_nans=False):
-    """Compute statistics for a given array, provides minimum, maximum, sum, squares, count and has_nans as a dictionary."""
+def compute_statistics(
+    array: NDArray[Any], check_variables_names: Optional[List[str]] = None, allow_nans: bool = False
+) -> dict[str, np.ndarray]:
+    """Compute statistics for a given array, provides minimum, maximum, sum, squares, count and has_nans as a dictionary.
+    Parameters
+    ----------
+    array : numpy.ndarray
+        The array to compute statistics for.
+    check_variables_names : list of str, optional
+        List of variable names to check. Defaults to None.
+    allow_nans : bool, optional
+        Whether to allow NaN values. Defaults to False.
+    Returns
+    -------
+    dict of str to numpy.ndarray
+        A dictionary containing the computed statistics.
+    """
     LOG.info(f"Computing statistics for {array.shape} array")
     nvars = array.shape[1]
@@ -180,16 +284,34 @@ def compute_statistics(array, check_variables_names=None, allow_nans=False):
 class TmpStatistics:
+    """Temporary statistics storage class."""
     version = 3
     # Used in parrallel, during data loading,
     # to write statistics in pickled npz files.
     # can provide statistics for a subset of dates.
-    def __init__(self, dirname, overwrite=False):
+    def __init__(self, dirname: str, overwrite: bool = False) -> None:
+        """Initialize TmpStatistics.
+        Parameters
+        ----------
+        dirname : str
+            Directory name for storing statistics.
+        overwrite : bool, optional
+            Whether to overwrite existing files. Defaults to False.
+        """
         self.dirname = dirname
         self.overwrite = overwrite
-    def add_provenance(self, **kwargs):
+    def add_provenance(self, **kwargs: dict) -> None:
+        """Add provenance information.
+        Parameters
+        ----------
+        **kwargs : dict
+            Additional provenance information.
+        """
         self.create(exist_ok=True)
         path = os.path.join(self.dirname, "provenance.json")
         if os.path.exists(path):
@@ -198,16 +320,35 @@ class TmpStatistics:
         with open(path, "w") as f:
             json.dump(out, f)
-    def create(self, exist_ok):
+    def create(self, exist_ok: bool) -> None:
+        """Create the directory for storing statistics.
+        Parameters
+        ----------
+        exist_ok : bool
+            Whether to ignore if the directory already exists.
+        """
         os.makedirs(self.dirname, exist_ok=exist_ok)
-    def delete(self):
+    def delete(self) -> None:
+        """Delete the directory for storing statistics."""
         try:
             shutil.rmtree(self.dirname)
         except FileNotFoundError:
             pass
-    def write(self, key, data, dates):
+    def write(self, key: str, data: any, dates: list[datetime.datetime]) -> None:
+        """Write statistics data to a file.
+        Parameters
+        ----------
+        key : str
+            The key for the data.
+        data : any
+            The data to write.
+        dates : list of datetime.datetime
+            List of dates associated with the data.
+        """
         self.create(exist_ok=True)
         h = hashlib.sha256(str(dates).encode("utf-8")).hexdigest()
         path = os.path.join(self.dirname, f"{h}.npz")
@@ -222,7 +363,14 @@ class TmpStatistics:
         LOG.debug(f"Written statistics data for {len(dates)} dates in {path} ({dates})")
-    def _gather_data(self):
+    def _gather_data(self) -> tuple[str, list[datetime.datetime], dict]:
+        """Gather data from stored files.
+        Yields
+        ------
+        tuple of str, list of datetime.datetime, dict
+            A tuple containing key, dates, and data.
+        """
         # use glob to read all pickles
         files = glob.glob(self.dirname + "/*.npz")
         LOG.debug(f"Reading stats data, found {len(files)} files in {self.dirname}")
@@ -231,37 +379,67 @@ class TmpStatistics:
             with open(f, "rb") as f:
                 yield pickle.load(f)
-    def get_aggregated(self, *args, **kwargs):
+    def get_aggregated(self, *args: Any, **kwargs: Any) -> Summary:
+        """Get aggregated statistics.
+        Parameters
+        ----------
+        *args : Any
+            Additional arguments.
+        **kwargs : Any
+            Additional keyword arguments.
+        Returns
+        -------
+        Summary
+            The aggregated statistics summary.
+        """
         aggregator = StatAggregator(self, *args, **kwargs)
         return aggregator.aggregate()
-    def __str__(self):
-        return f"TmpStatistics({self.dirname})"
-def normalise_date(d):
-    if isinstance(d, str):
-        d = np.datetime64(d)
-    return d
+    def __str__(self) -> str:
+        """String representation of TmpStatistics.
-def normalise_dates(dates):
-    return [normalise_date(d) for d in dates]
+        Returns
+        -------
+        str
+            The string representation.
+        """
+        return f"TmpStatistics({self.dirname})"
 class StatAggregator:
+    """Statistics aggregator class."""
     NAMES = ["minimum", "maximum", "sums", "squares", "count", "has_nans"]
-    def __init__(self, owner, dates, variables_names, allow_nans):
+    def __init__(
+        self, owner: TmpStatistics, dates: list[datetime.datetime], variables_names: list[str], allow_nans: bool
+    ) -> None:
+        """Initialize StatAggregator.
+        Parameters
+        ----------
+        owner : TmpStatistics
+            The owner TmpStatistics instance.
+        dates : list of datetime.datetime
+            List of dates to aggregate.
+        variables_names : list of str
+            List of variable names.
+        allow_nans : bool
+            Whether to allow NaN values.
+        """
         dates = sorted(dates)
         dates = to_datetimes(dates)
         assert dates, "No dates selected"
         self.owner = owner
         self.dates = dates
+        self._number_of_dates = len(dates)
+        self._set_of_dates = set(dates)
         self.variables_names = variables_names
         self.allow_nans = allow_nans
-        self.shape = (len(self.dates), len(self.variables_names))
+        self.shape = (self._number_of_dates, len(self.variables_names))
         LOG.debug(f"Aggregating statistics on shape={self.shape}. Variables : {self.variables_names}")
         self.minimum = np.full(self.shape, np.nan, dtype=np.float64)
@@ -273,12 +451,16 @@ class StatAggregator:
         self._read()
-    def _read(self):
+    def _read(self) -> None:
+        """Read and aggregate statistics data from files."""
         def check_type(a, b):
-            a = list(a)
-            b = list(b)
-            a = a[0] if a else None
-            b = b[0] if b else None
+            if not isinstance(a, set):
+                a = set(list(a))
+            if not isinstance(b, set):
+                b = set(list(b))
+            a = next(iter(a)) if a else None
+            b = next(iter(b)) if b else None
             assert type(a) is type(b), (type(a), type(b))
         found = set()
@@ -294,20 +476,20 @@ class StatAggregator:
             for n in self.NAMES:
                 assert n in stats, (n, list(stats.keys()))
             _dates = to_datetimes(_dates)
-            check_type(_dates, self.dates)
+            check_type(_dates, self._set_of_dates)
             if found:
-                check_type(found, self.dates)
+                check_type(found, self._set_of_dates)
                 assert found.isdisjoint(_dates), "Duplicate dates found in precomputed statistics"
             # filter dates
-            dates = set(_dates) & set(self.dates)
+            dates = set(_dates) & self._set_of_dates
             if not dates:
                 # dates have been completely filtered for this chunk
                 continue
             # filter data
-            bitmap = np.isin(_dates, self.dates)
+            bitmap = np.array([d in self._set_of_dates for d in _dates])
             for k in self.NAMES:
                 stats[k] = stats[k][bitmap]
@@ -323,11 +505,18 @@ class StatAggregator:
         for d in self.dates:
             assert d in found, f"Statistics for date {d} not precomputed."
-        assert len(self.dates) == len(found), "Not all dates found in precomputed statistics"
-        assert len(self.dates) == offset, "Not all dates found in precomputed statistics."
+        assert self._number_of_dates == len(found), "Not all dates found in precomputed statistics"
+        assert self._number_of_dates == offset, "Not all dates found in precomputed statistics."
         LOG.debug(f"Statistics for {len(found)} dates found.")
-    def aggregate(self):
+    def aggregate(self) -> Summary:
+        """Aggregate the statistics data.
+        Returns
+        -------
+        Summary
+            The aggregated statistics summary.
+        """
         minimum = np.nanmin(self.minimum, axis=0)
         maximum = np.nanmax(self.maximum, axis=0)

anemoi/datasets/create/statistics/summary.py CHANGED Viewed

@@ -9,6 +9,7 @@
 import json
 from collections import defaultdict
+from typing import Any
 import numpy as np
@@ -28,15 +29,32 @@ class Summary(dict):
         "has_nans",
     ]  # order matter for __str__.
-    def __init__(self, **kwargs):
+    def __init__(self, **kwargs: Any) -> None:
+        """Initialize the Summary object with given keyword arguments.
+        Parameters
+        ----------
+        **kwargs : Any
+            Arbitrary keyword arguments representing summary statistics.
+        """
         super().__init__(**kwargs)
         self.check()
     @property
-    def size(self):
+    def size(self) -> int:
+        """Get the size of the summary, which is the number of variables."""
         return len(self["variables_names"])
-    def check(self):
+    def check(self) -> None:
+        """Perform checks on the summary statistics to ensure they are valid.
+        Raises
+        ------
+        AssertionError
+            If any of the checks fail.
+        StatisticsValueError
+            If any of the statistical checks fail.
+        """
         for k, v in self.items():
             if k == "variables_names":
                 assert len(v) == self.size
@@ -63,7 +81,14 @@ class Summary(dict):
                 e.args += (i, name)
                 raise
-    def __str__(self):
+    def __str__(self) -> str:
+        """Return a string representation of the summary statistics.
+        Returns
+        -------
+        str
+            A formatted string of the summary statistics.
+        """
         header = ["Variables"] + self.STATS_NAMES
         out = [" ".join(header)]
@@ -73,7 +98,16 @@ class Summary(dict):
         ]
         return "\n".join(out)
-    def save(self, filename, **metadata):
+    def save(self, filename: str, **metadata: Any) -> None:
+        """Save the summary statistics to a JSON file.
+        Parameters
+        ----------
+        filename : str
+            The name of the file to save the summary statistics.
+        **metadata : Any
+            Additional metadata to include in the JSON file.
+        """
         assert filename.endswith(".json"), filename
         dic = {}
         for k in self.STATS_NAMES:
@@ -89,7 +123,19 @@ class Summary(dict):
         with open(filename, "w") as f:
             json.dump(out, f, indent=2)
-    def load(self, filename):
+    def load(self, filename: str) -> "Summary":
+        """Load the summary statistics from a JSON file.
+        Parameters
+        ----------
+        filename : str
+            The name of the file to load the summary statistics from.
+        Returns
+        -------
+        Summary
+            The loaded Summary object.
+        """
         assert filename.endswith(".json"), filename
         with open(filename) as f:
             dic = json.load(f)

anemoi/datasets/create/testing.py ADDED Viewed

@@ -0,0 +1,76 @@
+# (C) Copyright 2025- Anemoi contributors.
+#
+# This software is licensed under the terms of the Apache Licence Version 2.0
+# which can be obtained at http://www.apache.org/licenses/LICENSE-2.0.
+#
+# In applying this licence, ECMWF does not waive the privileges and immunities
+# granted to it by virtue of its status as an intergovernmental organisation
+# nor does it submit to any jurisdiction.
+import tempfile
+from typing import Any
+from typing import Dict
+from typing import List
+from typing import Optional
+from typing import Union
+import yaml
+from anemoi.datasets.create import creator_factory
+class TestingContext:
+    pass
+def create_dataset(
+    *,
+    config: Union[str, Dict[str, Any]],
+    output: Optional[str],
+    delta: Optional[List[str]] = None,
+    is_test: bool = False,
+) -> str:
+    """Create a dataset based on the provided configuration.
+    Parameters
+    ----------
+    config : Union[str, Dict[str, Any]]
+        The configuration for the dataset. Can be a path to a YAML file or a dictionary.
+    output : Optional[str]
+        The output path for the dataset. If None, a temporary directory will be created.
+    delta : Optional[List[str]], optional
+        List of delta for secondary statistics, by default None.
+    is_test : bool, optional
+        Flag indicating if the dataset creation is for testing purposes, by default False.
+    Returns
+    -------
+    str
+        The path to the created dataset.
+    """
+    if isinstance(config, dict):
+        temp_file = tempfile.NamedTemporaryFile(mode="w", suffix=".yaml")
+        yaml.dump(config, temp_file)
+        config = temp_file.name
+    if output is None:
+        output = tempfile.mkdtemp(suffix=".zarr")
+    creator_factory("init", config=config, path=output, overwrite=True, test=is_test).run()
+    creator_factory("load", path=output).run()
+    creator_factory("finalise", path=output).run()
+    creator_factory("patch", path=output).run()
+    if delta is not None:
+        creator_factory("init_additions", path=output, delta=delta).run()
+        creator_factory("run_additions", path=output, delta=delta).run()
+        creator_factory("finalise_additions", path=output, delta=delta).run()
+    creator_factory("cleanup", path=output).run()
+    if delta is not None:
+        creator_factory("cleanup", path=output, delta=delta).run()
+    creator_factory("verify", path=output).run()
+    return output

anemoi/datasets/create/{functions/filters/noop.py → typing.py} RENAMED Viewed

@@ -1,4 +1,4 @@
-# (C) Copyright 2024 Anemoi contributors.
+# (C) Copyright 2025- Anemoi contributors.
 #
 # This software is licensed under the terms of the Apache Licence Version 2.0
 # which can be obtained at http://www.apache.org/licenses/LICENSE-2.0.
@@ -7,6 +7,9 @@
 # granted to it by virtue of its status as an intergovernmental organisation
 # nor does it submit to any jurisdiction.
+import datetime
+from typing import List
-def execute(context, input, *args, **kwargs):
-    return input
+Date = datetime.datetime
+DateList = List[Date]

anemoi-datasets 0.5.16__py3-none-any.whl → 0.5.17__py3-none-any.whl

anemoi-datasets 0.5.16py3-none-any.whl → 0.5.17py3-none-any.whl