PyPI - d9d - Versions diffs - 0.1.0__py3-none-any.whl - Mend

d9d 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (238) hide show

d9d/__init__.py +0 -0
d9d/core/__init__.py +0 -0
d9d/core/autograd/__init__.py +7 -0
d9d/core/autograd/grad_context.py +85 -0
d9d/core/dist_context/__init__.py +19 -0
d9d/core/dist_context/configured.py +215 -0
d9d/core/dist_context/device_mesh_domains.py +185 -0
d9d/core/dist_context/log.py +30 -0
d9d/core/dist_context/params.py +113 -0
d9d/core/dist_ops/__init__.py +16 -0
d9d/core/dist_ops/object.py +68 -0
d9d/core/dist_ops/tensor.py +192 -0
d9d/core/protocol/__init__.py +8 -0
d9d/core/protocol/training.py +38 -0
d9d/core/sharding/__init__.py +15 -0
d9d/core/sharding/auto_spec.py +66 -0
d9d/core/sharding/shard.py +154 -0
d9d/core/sharding/spec.py +28 -0
d9d/core/sharding/unshard.py +117 -0
d9d/core/types/__init__.py +12 -0
d9d/core/types/data.py +14 -0
d9d/core/types/pytree.py +26 -0
d9d/dataset/__init__.py +17 -0
d9d/dataset/buffer_sorted.py +143 -0
d9d/dataset/padding.py +79 -0
d9d/dataset/sharded.py +195 -0
d9d/internals/__init__.py +0 -0
d9d/internals/determinism/__init__.py +10 -0
d9d/internals/determinism/seed.py +63 -0
d9d/internals/grad_norm/__init__.py +8 -0
d9d/internals/grad_norm/group.py +87 -0
d9d/internals/grad_norm/norm.py +169 -0
d9d/internals/grad_sync/__init__.py +14 -0
d9d/internals/grad_sync/bucket.py +317 -0
d9d/internals/grad_sync/placement_helper.py +23 -0
d9d/internals/grad_sync/synchronizer.py +257 -0
d9d/internals/pipeline_state/__init__.py +14 -0
d9d/internals/pipeline_state/api.py +45 -0
d9d/internals/pipeline_state/handler.py +111 -0
d9d/internals/pipeline_state/storage.py +236 -0
d9d/internals/profiling/__init__.py +7 -0
d9d/internals/profiling/profile.py +112 -0
d9d/internals/state/__init__.py +6 -0
d9d/internals/state/main_process.py +44 -0
d9d/kernel/__init__.py +0 -0
d9d/kernel/cce/__init__.py +5 -0
d9d/kernel/cce/cce.py +298 -0
d9d/kernel/cce/main.py +282 -0
d9d/kernel/general/__init__.py +5 -0
d9d/kernel/general/get_int_dtype.py +7 -0
d9d/kernel/gmm/__init__.py +5 -0
d9d/kernel/gmm/function.py +78 -0
d9d/kernel/moe/__init__.py +8 -0
d9d/kernel/moe/indices_to_multihot.py +268 -0
d9d/kernel/moe/permute_with_probs.py +1035 -0
d9d/kernel/stochastic/__init__.py +11 -0
d9d/kernel/stochastic/adamw_step.py +204 -0
d9d/kernel/stochastic/copy.py +104 -0
d9d/kernel/stochastic/ops/__init__.py +5 -0
d9d/kernel/stochastic/ops/round.py +22 -0
d9d/kernel/swiglu/__init__.py +5 -0
d9d/kernel/swiglu/function.py +36 -0
d9d/kernel/swiglu/op.py +167 -0
d9d/loop/__init__.py +0 -0
d9d/loop/auto/__init__.py +9 -0
d9d/loop/auto/auto_lr_scheduler.py +46 -0
d9d/loop/auto/auto_optimizer.py +196 -0
d9d/loop/component/__init__.py +35 -0
d9d/loop/component/batch_maths.py +106 -0
d9d/loop/component/checkpointer.py +172 -0
d9d/loop/component/data_loader_factory.py +258 -0
d9d/loop/component/garbage_collector.py +94 -0
d9d/loop/component/gradient_clipper.py +89 -0
d9d/loop/component/gradient_manager.py +149 -0
d9d/loop/component/job_logger.py +146 -0
d9d/loop/component/job_profiler.py +62 -0
d9d/loop/component/loss_computer.py +86 -0
d9d/loop/component/model_stage_exporter.py +37 -0
d9d/loop/component/model_stage_factory.py +261 -0
d9d/loop/component/optimizer_factory.py +88 -0
d9d/loop/component/stepper.py +52 -0
d9d/loop/component/timeout_manager.py +54 -0
d9d/loop/component/train_task_operator.py +152 -0
d9d/loop/config/__init__.py +36 -0
d9d/loop/config/config.py +225 -0
d9d/loop/config/types.py +24 -0
d9d/loop/control/__init__.py +61 -0
d9d/loop/control/dataset_provider.py +58 -0
d9d/loop/control/lr_scheduler_provider.py +47 -0
d9d/loop/control/model_provider.py +162 -0
d9d/loop/control/optimizer_provider.py +45 -0
d9d/loop/control/task.py +304 -0
d9d/loop/run/__init__.py +6 -0
d9d/loop/run/train.py +355 -0
d9d/loop/state.py +143 -0
d9d/lr_scheduler/__init__.py +9 -0
d9d/lr_scheduler/piecewise/__init__.py +18 -0
d9d/lr_scheduler/piecewise/builder.py +152 -0
d9d/lr_scheduler/piecewise/config.py +176 -0
d9d/lr_scheduler/piecewise/curves.py +75 -0
d9d/lr_scheduler/piecewise/engine.py +76 -0
d9d/lr_scheduler/visualizer.py +74 -0
d9d/metric/__init__.py +10 -0
d9d/metric/abc.py +79 -0
d9d/metric/impl/__init__.py +7 -0
d9d/metric/impl/compose.py +54 -0
d9d/metric/impl/mean.py +94 -0
d9d/model_state/__init__.py +0 -0
d9d/model_state/io/__init__.py +21 -0
d9d/model_state/io/dto.py +30 -0
d9d/model_state/io/module_reader.py +75 -0
d9d/model_state/io/module_writer.py +123 -0
d9d/model_state/io/reader.py +125 -0
d9d/model_state/io/writer.py +309 -0
d9d/model_state/mapper/__init__.py +10 -0
d9d/model_state/mapper/abc.py +70 -0
d9d/model_state/mapper/adapters/__init__.py +12 -0
d9d/model_state/mapper/adapters/mapper.py +27 -0
d9d/model_state/mapper/adapters/module.py +22 -0
d9d/model_state/mapper/compose/__init__.py +17 -0
d9d/model_state/mapper/compose/helper.py +22 -0
d9d/model_state/mapper/compose/parallel.py +58 -0
d9d/model_state/mapper/compose/sequential.py +131 -0
d9d/model_state/mapper/compose/shard.py +36 -0
d9d/model_state/mapper/leaf/__init__.py +18 -0
d9d/model_state/mapper/leaf/dtensor.py +56 -0
d9d/model_state/mapper/leaf/identity.py +23 -0
d9d/model_state/mapper/leaf/rename.py +26 -0
d9d/model_state/mapper/leaf/select_child.py +37 -0
d9d/model_state/mapper/leaf/stack.py +29 -0
d9d/module/__init__.py +0 -0
d9d/module/base/__init__.py +7 -0
d9d/module/base/late_init.py +10 -0
d9d/module/block/__init__.py +0 -0
d9d/module/block/attention/__init__.py +7 -0
d9d/module/block/attention/grouped_query.py +139 -0
d9d/module/block/attention/sdpa/__init__.py +5 -0
d9d/module/block/attention/sdpa/flash.py +52 -0
d9d/module/block/embedding/__init__.py +7 -0
d9d/module/block/embedding/shard_token_embedding.py +103 -0
d9d/module/block/ffn/__init__.py +5 -0
d9d/module/block/ffn/swiglu.py +60 -0
d9d/module/block/head/__init__.py +6 -0
d9d/module/block/head/language_modelling.py +87 -0
d9d/module/block/hidden_states_aggregator/__init__.py +12 -0
d9d/module/block/hidden_states_aggregator/base.py +35 -0
d9d/module/block/hidden_states_aggregator/factory.py +48 -0
d9d/module/block/hidden_states_aggregator/mean.py +61 -0
d9d/module/block/hidden_states_aggregator/noop.py +27 -0
d9d/module/block/moe/__init__.py +13 -0
d9d/module/block/moe/communications/__init__.py +11 -0
d9d/module/block/moe/communications/base.py +58 -0
d9d/module/block/moe/communications/deepep.py +300 -0
d9d/module/block/moe/communications/naive.py +68 -0
d9d/module/block/moe/grouped_experts.py +81 -0
d9d/module/block/moe/grouped_linear.py +78 -0
d9d/module/block/moe/layer.py +122 -0
d9d/module/block/moe/router.py +103 -0
d9d/module/block/positional/__init__.py +8 -0
d9d/module/block/positional/rope.py +150 -0
d9d/module/model/__init__.py +0 -0
d9d/module/model/qwen3_moe/__init__.py +16 -0
d9d/module/model/qwen3_moe/decoder_layer.py +110 -0
d9d/module/model/qwen3_moe/model.py +373 -0
d9d/module/model/qwen3_moe/params.py +69 -0
d9d/module/parallelism/__init__.py +0 -0
d9d/module/parallelism/api/__init__.py +18 -0
d9d/module/parallelism/api/expert_parallel.py +36 -0
d9d/module/parallelism/api/fully_sharded.py +43 -0
d9d/module/parallelism/api/hybrid_sharded.py +49 -0
d9d/module/parallelism/api/replicate_parallel.py +33 -0
d9d/module/parallelism/model/__init__.py +0 -0
d9d/module/parallelism/model/qwen3_moe.py +99 -0
d9d/module/parallelism/style/__init__.py +7 -0
d9d/module/parallelism/style/shard_experts.py +60 -0
d9d/module/parallelism/style/to_local.py +86 -0
d9d/optim/__init__.py +0 -0
d9d/optim/stochastic/__init__.py +5 -0
d9d/optim/stochastic/adamw.py +158 -0
d9d/peft/__init__.py +13 -0
d9d/peft/all/__init__.py +12 -0
d9d/peft/all/config.py +31 -0
d9d/peft/all/method.py +76 -0
d9d/peft/applicator.py +47 -0
d9d/peft/base.py +70 -0
d9d/peft/full_tune/__init__.py +11 -0
d9d/peft/full_tune/config.py +20 -0
d9d/peft/full_tune/method.py +46 -0
d9d/peft/lora/__init__.py +15 -0
d9d/peft/lora/config.py +35 -0
d9d/peft/lora/layer.py +177 -0
d9d/peft/lora/method.py +132 -0
d9d/pipelining/__init__.py +0 -0
d9d/pipelining/api/__init__.py +19 -0
d9d/pipelining/api/module.py +149 -0
d9d/pipelining/api/schedule.py +50 -0
d9d/pipelining/api/sharding.py +9 -0
d9d/pipelining/factory/__init__.py +21 -0
d9d/pipelining/factory/config.py +89 -0
d9d/pipelining/factory/factory.py +114 -0
d9d/pipelining/factory/registry.py +82 -0
d9d/pipelining/infra/__init__.py +0 -0
d9d/pipelining/infra/schedule/__init__.py +0 -0
d9d/pipelining/infra/schedule/component/__init__.py +0 -0
d9d/pipelining/infra/schedule/component/program/__init__.py +22 -0
d9d/pipelining/infra/schedule/component/program/base.py +35 -0
d9d/pipelining/infra/schedule/component/program/communications.py +203 -0
d9d/pipelining/infra/schedule/component/program/topology.py +78 -0
d9d/pipelining/infra/schedule/component/runtime/__init__.py +29 -0
d9d/pipelining/infra/schedule/component/runtime/action.py +361 -0
d9d/pipelining/infra/schedule/component/runtime/communications.py +101 -0
d9d/pipelining/infra/schedule/component/runtime/executor.py +113 -0
d9d/pipelining/infra/schedule/component/runtime/loss.py +55 -0
d9d/pipelining/infra/schedule/program/__init__.py +15 -0
d9d/pipelining/infra/schedule/program/bfs.py +86 -0
d9d/pipelining/infra/schedule/program/dualpipev.py +234 -0
d9d/pipelining/infra/schedule/program/interleaved.py +240 -0
d9d/pipelining/infra/schedule/program/zerobubblev.py +227 -0
d9d/pipelining/infra/stage/__init__.py +5 -0
d9d/pipelining/infra/stage/communications.py +274 -0
d9d/pipelining/infra/stage/computations.py +317 -0
d9d/pipelining/infra/stage/splitgrad.py +377 -0
d9d/pipelining/infra/stage/stage.py +321 -0
d9d/pipelining/infra/stage/struct_helper.py +46 -0
d9d/pipelining/training/__init__.py +7 -0
d9d/pipelining/training/optimizer.py +41 -0
d9d/pipelining/training/scheduler.py +34 -0
d9d/tracker/__init__.py +14 -0
d9d/tracker/base.py +124 -0
d9d/tracker/factory.py +57 -0
d9d/tracker/provider/__init__.py +0 -0
d9d/tracker/provider/aim/__init__.py +0 -0
d9d/tracker/provider/aim/config.py +23 -0
d9d/tracker/provider/aim/tracker.py +114 -0
d9d/tracker/provider/null.py +61 -0
d9d-0.1.0.dist-info/METADATA +90 -0
d9d-0.1.0.dist-info/RECORD +238 -0
d9d-0.1.0.dist-info/WHEEL +4 -0

d9d/module/block/moe/router.py ADDED Viewed

@@ -0,0 +1,103 @@
+import torch
+import torch.nn.functional as F
+from torch import nn
+from d9d.module.base import ModuleLateInit
+class TopKRouter(nn.Module, ModuleLateInit):
+    """
+    Selects the top-K experts based on a learned gating mechanism.
+    This router:
+    1. Projects input tokens into expert space
+    2. Applies softmax, optionally adds expert bias to influence selection
+    3. Selects the experts with the highest probabilities
+    4. Selected probabilities are then re-normalized to sum to 1 if needed.
+    """
+    def __init__(
+            self,
+            dim: int,
+            num_experts: int,
+            top_k: int,
+            renormalize_probabilities: bool,
+            enable_expert_bias: bool = False
+    ):
+        """
+        Constructs the TopKRouter.
+        Args:
+            dim: Input feature dimensionality.
+            num_experts: Total number of experts to choose from.
+            top_k: Number of experts to select for each token.
+            renormalize_probabilities: If True, probabilities of selected experts will be renormalized to sum up to 1
+            enable_expert_bias: If True, adds a bias term to the routing scores before top-k selection. This can be
+                used for loss-free load balancing.
+        """
+        super().__init__()
+        self.gate = nn.Linear(dim, num_experts, bias=False)
+        self.expert_bias: nn.Buffer | None
+        if enable_expert_bias:
+            self.expert_bias = nn.Buffer(
+                torch.empty(num_experts, dtype=torch.float32),
+                persistent=True,
+            )
+        else:
+            self.expert_bias = None
+        self._num_experts = num_experts
+        self._top_k = top_k
+        self._renormalize_probabilities = renormalize_probabilities
+    def forward(
+            self,
+            hidden_states: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        Calculates routing decisions for the input tokens.
+        Args:
+            hidden_states: Input tokens. Shape: `(num_tokens, dim)`.
+        Returns:
+            A tuple containing:
+            - Selected expert indices. Shape: `(num_tokens, top_k)`.
+            - Normalized routing weights for the selected experts. Shape: `(num_tokens, top_k)`.
+        """
+        # scores shape (bs*slen, num_experts)
+        # gate
+        scores = self.gate(hidden_states)
+        # and now do softmax (before top-k to be able to apply expert bias)
+        scores = F.softmax(scores, dim=-1, dtype=torch.float32)
+        # select top-k
+        if self.expert_bias is None:
+            scores, selected_experts_indices = torch.topk(
+                scores, k=self._top_k, dim=-1
+            )
+        else:
+            _, selected_experts_indices = torch.topk(
+                scores + self.expert_bias, k=self._top_k, dim=-1
+            )
+            scores = scores.gather(dim=-1, index=selected_experts_indices)
+        # re-normalize scores
+        denominator = scores.sum(dim=-1, keepdim=True) + 1e-20
+        scores = scores / denominator
+        return selected_experts_indices, scores
+    def reset_parameters(self):
+        """Resets module parameters."""
+        if self.expert_bias is not None:
+            nn.init.zeros_(self.expert_bias)
+        self.gate.reset_parameters()

d9d/module/block/positional/__init__.py ADDED Viewed

@@ -0,0 +1,8 @@
+"""Provides modules for positional embeddings, such as Rotary Positional Embeddings."""
+from .rope import RotaryEmbeddingApplicator, RotaryEmbeddingProvider
+__all__ = [
+    "RotaryEmbeddingApplicator",
+    "RotaryEmbeddingProvider"
+]

d9d/module/block/positional/rope.py ADDED Viewed

@@ -0,0 +1,150 @@
+import torch
+from torch import nn
+from d9d.module.base import ModuleLateInit
+def _prepare_rope_inverse_frequencies(
+        rope_base: int,
+        inside_dim: int
+) -> torch.Tensor:
+    """
+    Calculates inverse frequencies for RoPE calculation.
+    Args:
+        rope_base: Base for the geometric progression.
+        inside_dim: Dimension of the attention head (must be even).
+    Returns:
+        A tensor containing the inverse frequencies.
+    """
+    power = torch.arange(0, inside_dim, 2, dtype=torch.int64).to(dtype=torch.float) / inside_dim
+    freq = rope_base ** power
+    inv_freq = 1.0 / freq
+    return inv_freq
+def prepare_rotary_cos_sin_emb(
+        rope_base: int,
+        head_dim: int,
+        max_position_ids: int,
+        device: torch.device,
+        dtype: torch.dtype
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """
+    Precomputes rotary cosine and sine embeddings.
+    Args:
+        rope_base: Base frequency for calculation.
+        head_dim: Dimensionality of the attention head (E).
+        max_position_ids: Maximum sequence length supported (S).
+        device: Target device for the tensors.
+        dtype: Target data type for the tensors.
+    Returns:
+        A tuple containing cosine and sine tensors, both of shapes [S, E].
+    """
+    position_ids = torch.arange(0, max_position_ids, dtype=torch.long)
+    freqs = _prepare_rope_inverse_frequencies(rope_base, head_dim)
+    arguments = (freqs[:, None] @ position_ids[None, :].float()).T
+    emb = torch.cat((arguments, arguments), dim=-1)
+    cos = emb.cos()
+    sin = emb.sin()
+    return cos.to(device=device, dtype=dtype), sin.to(device=device, dtype=dtype)
+class RotaryEmbeddingProvider(nn.Module, ModuleLateInit):
+    """Module that manages and provides Rotary Positional Embeddings."""
+    def __init__(self, rope_base: int, head_dim: int, max_position_ids: int):
+        """Constructs the RotaryEmbeddingProvider."""
+        super().__init__()
+        self._rope_base = rope_base
+        self._head_dim = head_dim
+        self._max_position_ids = max_position_ids
+        self.cos_emb = nn.Buffer(torch.empty(max_position_ids, head_dim), persistent=False)
+        self.sin_emb = nn.Buffer(torch.empty(max_position_ids, head_dim), persistent=False)
+    def forward(self, position_ids: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        Retrieves cached cosine and sine embeddings for specific positions.
+        Args:
+            position_ids: Tensor of position indices.
+        Returns:
+            A tuple of (cos, sin) tensors aligned with the input positions.
+        """
+        return self.cos_emb[position_ids], self.sin_emb[position_ids]
+    def reset_parameters(self):
+        with torch.no_grad():
+            cos, sin = prepare_rotary_cos_sin_emb(
+                rope_base=self._rope_base,
+                head_dim=self._head_dim,
+                max_position_ids=self._max_position_ids,
+                device=self.cos_emb.device,
+                dtype=self.cos_emb.dtype
+            )
+            self.cos_emb.data = cos
+            self.sin_emb.data = sin
+def _rotate_half(x: torch.Tensor) -> torch.Tensor:
+    x1 = x[..., : x.shape[-1] // 2]
+    x2 = x[..., x.shape[-1] // 2:]
+    return torch.cat((-x2, x1), dim=-1)
+def _apply_rotary_pos_emb(
+        q: torch.Tensor, k: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor
+) -> tuple[torch.Tensor, torch.Tensor]:
+    cos = cos.unsqueeze(1)
+    sin = sin.unsqueeze(1)
+    q_embed = (q * cos) + (_rotate_half(q) * sin)
+    k_embed = (k * cos) + (_rotate_half(k) * sin)
+    return q_embed, k_embed
+class RotaryEmbeddingApplicator(nn.Module):
+    """Applies Rotary Positional Embeddings (RoPE) to Q and K projections."""
+    def __init__(self):
+        """
+        Constructs RotaryEmbeddingApplicator object.
+        """
+        super().__init__()
+    def forward(
+            self,
+            query_states: torch.Tensor,
+            key_states: torch.Tensor,
+            position_embedding_cos: torch.Tensor,
+            position_embedding_sin: torch.Tensor
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        """
+        Rotates query and key states using provided cosine and sine embeddings.
+        Args:
+            query_states: Query tensor. Shape: `(batch, n_heads, seq_len, head_dim)`.
+            key_states: Key tensor. Shape: `(batch, n_kv_heads, seq_len, head_dim)`.
+            position_embedding_cos: Cosine values for positions.
+                Shape: `(batch, seq_len, head_dim)`.
+            position_embedding_sin: Sine values for positions.
+                Shape: `(batch, seq_len, head_dim)`.
+        Returns:
+            A tuple containing the rotated query and key tensors.
+        """
+        query_states, key_states = _apply_rotary_pos_emb(query_states, key_states,
+                                                         position_embedding_cos, position_embedding_sin)
+        return query_states, key_states

d9d/module/model/__init__.py ADDED Viewed

File without changes

d9d/module/model/qwen3_moe/__init__.py ADDED Viewed

@@ -0,0 +1,16 @@
+from .decoder_layer import Qwen3MoELayer
+from .model import Qwen3MoEForCausalLM, Qwen3MoEModel
+from .params import (
+    Qwen3MoEForCausalLMParameters,
+    Qwen3MoELayerParameters,
+    Qwen3MoEParameters,
+)
+__all__ = [
+    "Qwen3MoEForCausalLM",
+    "Qwen3MoEForCausalLMParameters",
+    "Qwen3MoELayer",
+    "Qwen3MoELayerParameters",
+    "Qwen3MoEModel",
+    "Qwen3MoEParameters"
+]

d9d/module/model/qwen3_moe/decoder_layer.py ADDED Viewed

@@ -0,0 +1,110 @@
+import torch
+from torch import nn
+from d9d.module.base import ModuleLateInit
+from d9d.module.block.attention import GroupedQueryAttention
+from d9d.module.block.moe import MoELayer
+from .params import Qwen3MoELayerParameters
+class Qwen3MoELayer(nn.Module, ModuleLateInit):
+    """
+    Implements a single Qwen3 Mixture-of-Experts (MoE) transformer layer.
+    This layer consists of a Grouped Query Attention mechanism followed by an MoE
+    MLP block, with pre-RMSNorm applied before each sub-layer.
+    """
+    def __init__(
+            self,
+            params: Qwen3MoELayerParameters
+    ):
+        """
+        Constructs a Qwen3MoELayer object.
+        Args:
+            params: Configuration parameters for the layer.
+        """
+        super().__init__()
+        self.self_attn = GroupedQueryAttention(
+            hidden_size=params.hidden_size,
+            num_attention_heads=params.num_attention_heads,
+            num_key_value_heads=params.num_key_value_heads,
+            is_causal=True,
+            qk_norm_eps=params.rms_norm_eps,
+            head_dim=params.head_dim
+        )
+        self.mlp = MoELayer(
+            hidden_dim=params.hidden_size,
+            num_grouped_experts=params.num_experts,
+            intermediate_dim_grouped=params.intermediate_size,
+            top_k=params.experts_top_k,
+            router_renormalize_probabilities=True
+        )
+        self.input_layernorm = nn.RMSNorm(params.hidden_size, eps=params.rms_norm_eps)
+        self.post_attention_layernorm = nn.RMSNorm(params.hidden_size, eps=params.rms_norm_eps)
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        position_embeddings: tuple[torch.Tensor, torch.Tensor]
+    ) -> torch.Tensor:
+        """
+        Performs the forward pass of the MoE layer.
+        Args:
+            hidden_states: Input tensor of shape `(batch, seq_len, hidden_dim)`.
+            position_embeddings: Tuple containing RoPE precomputed embeddings (cos, sin).
+        Returns:
+            Output tensor after attention and MoE blocks, shape `(batch, seq_len, hidden_dim)`.
+        """
+        residual = hidden_states
+        hidden_states = self.input_layernorm(hidden_states)
+        hidden_states = self.self_attn(
+            hidden_states=hidden_states,
+            position_embeddings=position_embeddings,
+            attention_mask=None  # no mask for moe decoder
+        )
+        hidden_states = residual + hidden_states
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + hidden_states
+        return hidden_states
+    def reset_moe_stats(self):
+        """
+        Resets statistical counters inside the MoE router (e.g., token counts per expert).
+        """
+        self.mlp.reset_stats()
+    @property
+    def moe_tokens_per_expert(self) -> torch.Tensor:
+        """
+        Returns the number of tokens routed to each expert.
+        """
+        return self.mlp.tokens_per_expert
+    def reset_parameters(self):
+        """
+        Resets module parameters.
+        """
+        self.self_attn.reset_parameters()
+        self.mlp.reset_parameters()
+        self.input_layernorm.reset_parameters()
+        self.post_attention_layernorm.reset_parameters()