PyPI - nshtrainer - Versions diffs - 1.0.0b44__py3-none-any.whl → 1.0.0b45__py3-none-any.whl - Mend

nshtrainer 1.0.0b44py3-none-any.whl → 1.0.0b45py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

nshtrainer/callbacks/metric_validation.py CHANGED Viewed

@@ -5,8 +5,8 @@ from typing import Literal
 from lightning.pytorch.utilities.exceptions import MisconfigurationException
 from typing_extensions import final, override, assert_never
-from .._callback import NTCallbackBase
+from lightning.pytorch import Trainer
+from lightning.pytorch.callbacks import Callback
 from ..metrics import MetricConfig
 from .base import CallbackConfigBase, callback_registry
@@ -43,33 +43,48 @@ class MetricValidationCallbackConfig(CallbackConfigBase):
         yield MetricValidationCallback(self, metrics)
-class MetricValidationCallback(NTCallbackBase):
+class MetricValidationCallback(Callback):
     def __init__(
-        self, config: MetricValidationCallbackConfig, metrics: list[MetricConfig]
+        self,
+        config: MetricValidationCallbackConfig,
+        metrics: list[MetricConfig],
     ):
         super().__init__()
         self.config = config
         self.metrics = metrics
-    @override
-    def on_sanity_check_end(self, trainer, pl_module):
-        super().on_sanity_check_end(trainer, pl_module)
-        log.debug("Validating metrics...")
+    def _check_metrics(self, trainer: Trainer):
+        metric_names = ", ".join(metric.validation_monitor for metric in self.metrics)
+        log.info(f"Validating metrics: {metric_names}...")
         logged_metrics = set(trainer.logged_metrics.keys())
-        for metric in self.metrics:
-            if metric.validation_monitor in logged_metrics:
-                continue
+        invalid_metrics: list[str] = []
+        for metric in self.metrics:
+            if metric.validation_monitor not in logged_metrics:
+                invalid_metrics.append(metric.validation_monitor)
+        if invalid_metrics:
+            msg = (
+                f"The following metrics were not found in logged metrics: {invalid_metrics}\n"
+                f"List of logged metrics: {list(trainer.logged_metrics.keys())}"
+            )
             match self.config.error_behavior:
                 case "raise":
-                    raise MisconfigurationException(
-                        f"Metric '{metric.validation_monitor}' not found in logged metrics."
-                    )
+                    raise MisconfigurationException(msg)
                 case "warn":
-                    log.warning(
-                        f"Metric '{metric.validation_monitor}' not found in logged metrics."
-                    )
+                    log.warning(msg)
                 case _:
                     assert_never(self.config.error_behavior)
+    @override
+    def on_sanity_check_end(self, trainer, pl_module):
+        super().on_sanity_check_end(trainer, pl_module)
+        self._check_metrics(trainer)
+    @override
+    def on_validation_end(self, trainer, pl_module):
+        super().on_validation_end(trainer, pl_module)
+        self._check_metrics(trainer)

nshtrainer/configs/trainer/trainer/__init__.py CHANGED Viewed

@@ -4,14 +4,12 @@ __codegen__ = True
 from nshtrainer.trainer.trainer import AcceleratorConfigBase as AcceleratorConfigBase
 from nshtrainer.trainer.trainer import EnvironmentConfig as EnvironmentConfig
-from nshtrainer.trainer.trainer import PluginConfigBase as PluginConfigBase
 from nshtrainer.trainer.trainer import StrategyConfigBase as StrategyConfigBase
 from nshtrainer.trainer.trainer import TrainerConfig as TrainerConfig
 __all__ = [
     "AcceleratorConfigBase",
     "EnvironmentConfig",
-    "PluginConfigBase",
     "StrategyConfigBase",
     "TrainerConfig",
 ]

nshtrainer/nn/__init__.py CHANGED Viewed

@@ -2,7 +2,6 @@ from __future__ import annotations
 from .mlp import MLP as MLP
 from .mlp import MLPConfig as MLPConfig
-from .mlp import MLPConfigDict as MLPConfigDict
 from .mlp import ResidualSequential as ResidualSequential
 from .mlp import custom_seed_context as custom_seed_context
 from .module_dict import TypedModuleDict as TypedModuleDict

nshtrainer/nn/mlp.py CHANGED Viewed

@@ -3,12 +3,12 @@ from __future__ import annotations
 import contextlib
 import copy
 from collections.abc import Callable, Sequence
-from typing import Literal, Protocol, runtime_checkable
+from typing import Any, Literal, Protocol, runtime_checkable
 import nshconfig as C
 import torch
 import torch.nn as nn
-from typing_extensions import TypedDict, override
+from typing_extensions import deprecated, override
 from .nonlinearity import NonlinearityConfig, NonlinearityConfigBase
@@ -26,29 +26,6 @@ class ResidualSequential(nn.Sequential):
         return input + super().forward(input)
-class MLPConfigDict(TypedDict):
-    bias: bool
-    """Whether to include bias terms in the linear layers."""
-    no_bias_scalar: bool
-    """Whether to exclude bias terms when the output dimension is 1."""
-    nonlinearity: NonlinearityConfig | None
-    """Activation function to use between layers."""
-    ln: bool | Literal["pre", "post"]
-    """Whether to apply layer normalization before or after the linear layers."""
-    dropout: float | None
-    """Dropout probability to apply between layers."""
-    residual: bool
-    """Whether to use residual connections between layers."""
-    seed: int | None
-    """Random seed to use for initialization. If None, the default Torch behavior is used."""
 class MLPConfig(C.Config):
     bias: bool = True
     """Whether to include bias terms in the linear layers."""
@@ -71,8 +48,15 @@ class MLPConfig(C.Config):
     seed: int | None = None
     """Random seed to use for initialization. If None, the default Torch behavior is used."""
-    def to_kwargs(self) -> MLPConfigDict:
-        kwargs: MLPConfigDict = {
+    @deprecated("Use `nt.nn.MLP(config=...)` instead.")
+    def create_module(
+        self,
+        dims: Sequence[int],
+        pre_layers: Sequence[nn.Module] = [],
+        post_layers: Sequence[nn.Module] = [],
+        linear_cls: LinearModuleConstructor = nn.Linear,
+    ):
+        kwargs: dict[str, Any] = {
             "bias": self.bias,
             "no_bias_scalar": self.no_bias_scalar,
             "nonlinearity": self.nonlinearity,
@@ -81,18 +65,9 @@ class MLPConfig(C.Config):
             "residual": self.residual,
             "seed": self.seed,
         }
-        return kwargs
-    def create_module(
-        self,
-        dims: Sequence[int],
-        pre_layers: Sequence[nn.Module] = [],
-        post_layers: Sequence[nn.Module] = [],
-        linear_cls: LinearModuleConstructor = nn.Linear,
-    ):
         return MLP(
             dims,
-            **self.to_kwargs(),
+            **kwargs,
             pre_layers=pre_layers,
             post_layers=post_layers,
             linear_cls=linear_cls,
@@ -121,50 +96,73 @@ def MLP(
     | nn.Module
     | Callable[[], nn.Module]
     | None = None,
-    bias: bool = True,
-    no_bias_scalar: bool = True,
-    ln: bool | Literal["pre", "post"] = False,
+    bias: bool | None = None,
+    no_bias_scalar: bool | None = None,
+    ln: bool | Literal["pre", "post"] | None = None,
     dropout: float | None = None,
-    residual: bool = False,
+    residual: bool | None = None,
     pre_layers: Sequence[nn.Module] = [],
     post_layers: Sequence[nn.Module] = [],
     linear_cls: LinearModuleConstructor = nn.Linear,
     seed: int | None = None,
+    config: MLPConfig | None = None,
 ):
     """
     Constructs a multi-layer perceptron (MLP) with the given dimensions and activation function.
     Args:
         dims (Sequence[int]): List of integers representing the dimensions of the MLP.
-        nonlinearity (Callable[[], nn.Module]): Activation function to use between layers.
-        activation (Callable[[], nn.Module]): Activation function to use between layers.
-        bias (bool, optional): Whether to include bias terms in the linear layers. Defaults to True.
-        no_bias_scalar (bool, optional): Whether to exclude bias terms when the output dimension is 1. Defaults to True.
-        ln (bool | Literal["pre", "post"], optional): Whether to apply layer normalization before or after the linear layers. Defaults to False.
-        dropout (float | None, optional): Dropout probability to apply between layers. Defaults to None.
-        residual (bool, optional): Whether to use residual connections between layers. Defaults to False.
+        nonlinearity (Callable[[], nn.Module] | None, optional): Activation function to use between layers.
+        activation (Callable[[], nn.Module] | None, optional): Activation function to use between layers.
+        bias (bool | None, optional): Whether to include bias terms in the linear layers.
+        no_bias_scalar (bool | None, optional): Whether to exclude bias terms when the output dimension is 1.
+        ln (bool | Literal["pre", "post"] | None, optional): Whether to apply layer normalization before or after the linear layers.
+        dropout (float | None, optional): Dropout probability to apply between layers.
+        residual (bool | None, optional): Whether to use residual connections between layers.
         pre_layers (Sequence[nn.Module], optional): List of layers to insert before the linear layers. Defaults to [].
         post_layers (Sequence[nn.Module], optional): List of layers to insert after the linear layers. Defaults to [].
         linear_cls (LinearModuleConstructor, optional): Linear module constructor to use. Defaults to nn.Linear.
-        seed (int | None, optional): Random seed to use for initialization. If None, the default Torch behavior is used. Defaults to None.
+        seed (int | None, optional): Random seed to use for initialization. If None, the default Torch behavior is used.
+        config (MLPConfig | None, optional): Configuration object for the MLP. Parameters specified directly take precedence.
     Returns:
         nn.Sequential: The constructed MLP.
     """
-    with custom_seed_context(seed):
+    # Resolve parameters: arg if not None, otherwise config value if config exists, otherwise default
+    resolved_bias = bias if bias is not None else (config.bias if config else True)
+    resolved_no_bias_scalar = (
+        no_bias_scalar
+        if no_bias_scalar is not None
+        else (config.no_bias_scalar if config else True)
+    )
+    resolved_nonlinearity = (
+        nonlinearity
+        if nonlinearity is not None
+        else (config.nonlinearity if config else None)
+    )
+    resolved_ln = ln if ln is not None else (config.ln if config else False)
+    resolved_dropout = (
+        dropout if dropout is not None else (config.dropout if config else None)
+    )
+    resolved_residual = (
+        residual if residual is not None else (config.residual if config else False)
+    )
+    resolved_seed = seed if seed is not None else (config.seed if config else None)
+    with custom_seed_context(resolved_seed):
         if activation is None:
-            activation = nonlinearity
+            activation = resolved_nonlinearity
         if len(dims) < 2:
             raise ValueError("mlp requires at least 2 dimensions")
-        if ln is True:
-            ln = "pre"
-        elif isinstance(ln, str) and ln not in ("pre", "post"):
+        if resolved_ln is True:
+            resolved_ln = "pre"
+        elif isinstance(resolved_ln, str) and resolved_ln not in ("pre", "post"):
             raise ValueError("ln must be a boolean or 'pre' or 'post'")
         layers: list[nn.Module] = []
-        if ln == "pre":
+        if resolved_ln == "pre":
             layers.append(nn.LayerNorm(dims[0]))
         layers.extend(pre_layers)
@@ -172,10 +170,12 @@ def MLP(
         for i in range(len(dims) - 1):
             in_features = dims[i]
             out_features = dims[i + 1]
-            bias_ = bias and not (no_bias_scalar and out_features == 1)
+            bias_ = resolved_bias and not (
+                resolved_no_bias_scalar and out_features == 1
+            )
             layers.append(linear_cls(in_features, out_features, bias=bias_))
-            if dropout is not None:
-                layers.append(nn.Dropout(dropout))
+            if resolved_dropout is not None:
+                layers.append(nn.Dropout(resolved_dropout))
             if i < len(dims) - 2:
                 match activation:
                     case NonlinearityConfigBase():
@@ -192,8 +192,8 @@ def MLP(
         layers.extend(post_layers)
-        if ln == "post":
+        if resolved_ln == "post":
             layers.append(nn.LayerNorm(dims[-1]))
-        cls = ResidualSequential if residual else nn.Sequential
+        cls = ResidualSequential if resolved_residual else nn.Sequential
         return cls(*layers)

nshtrainer/trainer/trainer.py CHANGED Viewed

@@ -25,7 +25,6 @@ from ..util.bf16 import is_bf16_supported_no_emulation
 from ._config import LightningTrainerKwargs, TrainerConfig
 from ._runtime_callback import RuntimeTrackerCallback, Stage
 from .accelerator import AcceleratorConfigBase
-from .plugin import PluginConfigBase
 from .signal_connector import _SignalConnector
 from .strategy import StrategyConfigBase

{nshtrainer-1.0.0b44.dist-info → nshtrainer-1.0.0b45.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: nshtrainer
-Version: 1.0.0b44
+Version: 1.0.0b45
 Summary:
 Author: Nima Shoghi
 Author-email: nimashoghi@gmail.com

{nshtrainer-1.0.0b44.dist-info → nshtrainer-1.0.0b45.dist-info}/RECORD RENAMED Viewed

@@ -23,7 +23,7 @@ nshtrainer/callbacks/gradient_skipping.py,sha256=8g7oC7PF0LTAEzwiNoaS5tWOnkjk_EB
 nshtrainer/callbacks/interval.py,sha256=UCzUzt3XCFVyQyCWL9lOrStkkxesvduNOYk8yMrGTTk,8116
 nshtrainer/callbacks/log_epoch.py,sha256=B5Dm8XVZwCzKUhUWfT_5PDdDac993191OsbcxxuSVJE,1457
 nshtrainer/callbacks/lr_monitor.py,sha256=qy_C0R40J0hBAukzBwng5FI2jJUpWuXOi5N6FU6ym3I,1210
-nshtrainer/callbacks/metric_validation.py,sha256=4bMMHVQ7rBbveDiowZS7Wwr77rE8HrerIbo3n9OddPA,2406
+nshtrainer/callbacks/metric_validation.py,sha256=tqUVS2n9QRT3v1_8jAGlYBFhLpA6Bm9pxOsfWhD3yZQ,2915
 nshtrainer/callbacks/norm_logging.py,sha256=nVIDWe-ASl5zN830-ODR8QMCqI1ma-QPCIwoy0Wb-Nk,6390
 nshtrainer/callbacks/print_table.py,sha256=VaS4JgI963do79laXK4lUkFQx8v6aRSy22W0zyal_LA,3035
 nshtrainer/callbacks/rlp_sanity_checks.py,sha256=74BZvV2HLO__ucQXsLXb8eJLUZgRFUNJZ6TL9efMp74,10051
@@ -92,7 +92,7 @@ nshtrainer/configs/trainer/plugin/io/__init__.py,sha256=W6G67JnigB6d3MiwLrbSKgtI
 nshtrainer/configs/trainer/plugin/layer_sync/__init__.py,sha256=SYDZk2M6sgpt4sEuoURuS8EKYmaqGcvYxETE9jvTrEE,431
 nshtrainer/configs/trainer/plugin/precision/__init__.py,sha256=szlqSfK2XuWdkf72LQzQFv3SlWfKFdRUpBEYIxQ3TPs,1507
 nshtrainer/configs/trainer/strategy/__init__.py,sha256=50whNloJVBq_bdbLaPQnPBTeS1Rcs8MwxTCYBj1kKa4,273
-nshtrainer/configs/trainer/trainer/__init__.py,sha256=QnuhMQNAa1nSVN2o50_WeKAQG_qkNlkeoq9zTjjwmTI,586
+nshtrainer/configs/trainer/trainer/__init__.py,sha256=DDuBRx0kVNMW0z_sqKTUt8-Ql7bOpargi4KcHHvDu_c,486
 nshtrainer/configs/util/__init__.py,sha256=qXittS7f7MyaqJnjvFLKnKsyb6bXTD3dEV16jXVDaH4,2104
 nshtrainer/configs/util/_environment_info/__init__.py,sha256=eB4E0Ck7XCeSC5gbUdA5thd7TXnjGCL0t8GZIFj7uCI,1644
 nshtrainer/configs/util/config/__init__.py,sha256=nEFiDG3-dvvTytYn1tEkPFzp7fgaGRp2j7toSN7yRGs,501
@@ -119,8 +119,8 @@ nshtrainer/model/base.py,sha256=JL3AmH17GQjQIoMrZl3O0vUI7dj5ZsO5iEJgoLPyzHw,1035
 nshtrainer/model/mixins/callback.py,sha256=0LPgve4VszHbLipid4mpI1qnnmdGS2spivs0dXLvqHw,3154
 nshtrainer/model/mixins/debug.py,sha256=1LX9KzeFX9JDPs_a6YCdYDZXLhEk_5rBO2aCqlfBy7w,2087
 nshtrainer/model/mixins/logger.py,sha256=27H99FuLaxc6_dDLG2pid4E_5E0-eLGnc2Ifpt0HYIM,6066
-nshtrainer/nn/__init__.py,sha256=0FgeoaLYtRiSLT8fdPigLD8t-d8DKR8IQDw16JA9lT4,1523
-nshtrainer/nn/mlp.py,sha256=_a8rJJniSCvM08gyQGO-5MUoO18U9_FSGGn3tZL2_U4,7101
+nshtrainer/nn/__init__.py,sha256=5Gg3nieGSC5_dXaI9KUVUUbM13hHexH9831m4hcf6no,1475
+nshtrainer/nn/mlp.py,sha256=nYUgAISzuhC8sav6PloAdyz0PdEoikwppiXIuToEVdE,7550
 nshtrainer/nn/module_dict.py,sha256=9plb8aQUx5TUEPhX5jI9u8LrpTeKe7jZAHi8iIqcN8w,2365
 nshtrainer/nn/module_list.py,sha256=UB43pcwD_3nUke_DyLQt-iXKhWdKM6Zjm84lRC1hPYA,1755
 nshtrainer/nn/nonlinearity.py,sha256=xmaL4QCRvCxqmaGIOwetJeKK-6IK4m2OV7D3SjxSwJQ,6322
@@ -142,7 +142,7 @@ nshtrainer/trainer/plugin/layer_sync.py,sha256=h-ydZwXepnsw5-paLgiDatqPyQ_8C0QEv
 nshtrainer/trainer/plugin/precision.py,sha256=I0QsB1bVxmsFmBOkgrAfGONsuYae_lD9Bz0PfJEQvH4,5598
 nshtrainer/trainer/signal_connector.py,sha256=GhfGcSzfaTNhnj2QFkBDq5aT7FqbLMA7eC8SYQs8_8w,10828
 nshtrainer/trainer/strategy.py,sha256=VPTn5z3zvXTydY8IJchjhjcOfpvtoejnvUkq5E4WTus,1368
-nshtrainer/trainer/trainer.py,sha256=ed_Pn-yQCb9BqaHXo2wVhkt2CSfGNEzMAM6RsDoTo-I,20834
+nshtrainer/trainer/trainer.py,sha256=8wMe0qArbDfStS4UdmuKSC2aiAImR3mhj14_kCJiNSM,20797
 nshtrainer/util/_environment_info.py,sha256=MT8mBe6ZolRfKiwU-les1P-lPNPqXpHQcfADrh_A3uY,24629
 nshtrainer/util/bf16.py,sha256=9QhHZCkYSfYpIcxwAMoXyuh2yTSHBzT-EdLQB297jEs,762
 nshtrainer/util/config/__init__.py,sha256=Z39JJufSb61Lhn2GfVcv3eFW_eorOrN9-9llDWlnZZM,272
@@ -154,6 +154,6 @@ nshtrainer/util/seed.py,sha256=diMV8iwBKN7Xxt5pELmui-gyqyT80_CZzomrWhNss0k,316
 nshtrainer/util/slurm.py,sha256=HflkP5iI_r4UHMyPjw9R4dD5AHsJUpcfJw5PLvGYBRM,1603
 nshtrainer/util/typed.py,sha256=Xt5fUU6zwLKSTLUdenovnKK0N8qUq89Kddz2_XeykVQ,164
 nshtrainer/util/typing_utils.py,sha256=MjY-CUX9R5Tzat-BlFnQjwl1PQ_W2yZQoXhkYHlJ_VA,442
-nshtrainer-1.0.0b44.dist-info/METADATA,sha256=u_dApZgfGst9vUiKBgnFQhGB0pBeULPOeGlaQ5-CPnI,988
-nshtrainer-1.0.0b44.dist-info/WHEEL,sha256=XbeZDeTWKc1w7CSIyre5aMDU_-PohRwTQceYnisIYYY,88
-nshtrainer-1.0.0b44.dist-info/RECORD,,
+nshtrainer-1.0.0b45.dist-info/METADATA,sha256=_RPpe6F7DXpsQSmBF1GTc-E5VUfaC69fIYfoFhsip2s,988
+nshtrainer-1.0.0b45.dist-info/WHEEL,sha256=XbeZDeTWKc1w7CSIyre5aMDU_-PohRwTQceYnisIYYY,88
+nshtrainer-1.0.0b45.dist-info/RECORD,,

{nshtrainer-1.0.0b44.dist-info → nshtrainer-1.0.0b45.dist-info}/WHEEL RENAMED Viewed

File without changes

nshtrainer 1.0.0b44__py3-none-any.whl → 1.0.0b45__py3-none-any.whl

nshtrainer 1.0.0b44py3-none-any.whl → 1.0.0b45py3-none-any.whl