PyPI - mslk-cuda-nightly - Versions diffs - 2026.1.19__cp310-cp310-manylinux_2_28_x86_64.whl - Mend

mslk-cuda-nightly 2026.1.19__cp310-cp310-manylinux_2_28_x86_64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (116) hide show

mslk/__init__.py +56 -0
mslk/attention/__init__.py +7 -0
mslk/attention/cutlass_blackwell_fmha/__init__.py +30 -0
mslk/attention/cutlass_blackwell_fmha/cutlass_blackwell_fmha_custom_op.py +332 -0
mslk/attention/cutlass_blackwell_fmha/cutlass_blackwell_fmha_interface.py +533 -0
mslk/attention/flash_attn/__init__.py +22 -0
mslk/attention/flash_attn/ampere_helpers.py +104 -0
mslk/attention/flash_attn/barrier.py +72 -0
mslk/attention/flash_attn/benchmark.py +269 -0
mslk/attention/flash_attn/blackwell_helpers.py +754 -0
mslk/attention/flash_attn/block_info.py +109 -0
mslk/attention/flash_attn/block_sparse_utils.py +1452 -0
mslk/attention/flash_attn/block_sparsity.py +219 -0
mslk/attention/flash_attn/compute_block_sparsity.py +378 -0
mslk/attention/flash_attn/copy_utils.py +341 -0
mslk/attention/flash_attn/cute_dsl_utils.py +135 -0
mslk/attention/flash_attn/fast_math.py +22 -0
mslk/attention/flash_attn/flash_bwd.py +1262 -0
mslk/attention/flash_attn/flash_bwd_postprocess.py +464 -0
mslk/attention/flash_attn/flash_bwd_preprocess.py +366 -0
mslk/attention/flash_attn/flash_bwd_sm100.py +2951 -0
mslk/attention/flash_attn/flash_bwd_sm90.py +1703 -0
mslk/attention/flash_attn/flash_fwd.py +2471 -0
mslk/attention/flash_attn/flash_fwd_combine.py +705 -0
mslk/attention/flash_attn/flash_fwd_sm100.py +2727 -0
mslk/attention/flash_attn/hopper_helpers.py +102 -0
mslk/attention/flash_attn/interface.py +1771 -0
mslk/attention/flash_attn/mask.py +610 -0
mslk/attention/flash_attn/mma_sm100_desc.py +292 -0
mslk/attention/flash_attn/named_barrier.py +32 -0
mslk/attention/flash_attn/pack_gqa.py +165 -0
mslk/attention/flash_attn/paged_kv.py +176 -0
mslk/attention/flash_attn/pipeline.py +273 -0
mslk/attention/flash_attn/seqlen_info.py +139 -0
mslk/attention/flash_attn/softmax.py +583 -0
mslk/attention/flash_attn/testing.py +424 -0
mslk/attention/flash_attn/tile_scheduler.py +720 -0
mslk/attention/flash_attn/utils.py +860 -0
mslk/attention/fmha/__init__.py +967 -0
mslk/attention/fmha/_triton/__init__.py +6 -0
mslk/attention/fmha/_triton/available.py +50 -0
mslk/attention/fmha/_triton/splitk_kernels.py +1534 -0
mslk/attention/fmha/_triton/vararg_kernel.py +262 -0
mslk/attention/fmha/attn_bias.py +2186 -0
mslk/attention/fmha/attn_bias_utils.py +536 -0
mslk/attention/fmha/ck.py +508 -0
mslk/attention/fmha/ck_decoder.py +141 -0
mslk/attention/fmha/ck_splitk.py +204 -0
mslk/attention/fmha/common.py +598 -0
mslk/attention/fmha/cutlass.py +461 -0
mslk/attention/fmha/cutlass_blackwell.py +560 -0
mslk/attention/fmha/dispatch.py +224 -0
mslk/attention/fmha/flash.py +862 -0
mslk/attention/fmha/flash3.py +858 -0
mslk/attention/fmha/flash_mtia.py +245 -0
mslk/attention/fmha/merge_training.py +192 -0
mslk/attention/fmha/split_blocks_fairinternal.py +329 -0
mslk/attention/fmha/torch_attention_compat.py +154 -0
mslk/attention/fmha/tree_attention.py +718 -0
mslk/attention/fmha/triton_splitk.py +1378 -0
mslk/attention/fmha/unbind.py +130 -0
mslk/attention/fmha/utils/__init__.py +6 -0
mslk/attention/fmha/utils/bench.py +74 -0
mslk/attention/fmha/utils/cpp_lib.py +148 -0
mslk/attention/fmha/utils/op_common.py +65 -0
mslk/attention/gqa_attn_splitk/__init__.py +11 -0
mslk/bench/comm/__init__.py +7 -0
mslk/bench/comm/comm_bench.py +255 -0
mslk/bench/common/__init__.py +5 -0
mslk/bench/common/utils.py +148 -0
mslk/bench/conv/__init__.py +7 -0
mslk/bench/conv/conv_bench.py +551 -0
mslk/bench/conv/conv_ops.py +213 -0
mslk/bench/gemm/__init__.py +7 -0
mslk/bench/gemm/gemm_bench.py +859 -0
mslk/bench/gemm/gemm_ops.py +3342 -0
mslk/bench/gemm/grouped_gemm_bias_scale_benchmark.py +177 -0
mslk/bench/moe/__init__.py +7 -0
mslk/bench/moe/gather_scatter_bench.py +356 -0
mslk/bench/quantize/quantize_bench.py +345 -0
mslk/bench/quantize/quantize_ops.py +266 -0
mslk/comm/__init__.py +11 -0
mslk/conv/__init__.py +11 -0
mslk/gemm/__init__.py +18 -0
mslk/gemm/triton/__init__.py +7 -0
mslk/gemm/triton/fp8_gemm.py +2702 -0
mslk/gemm/triton/grouped_gemm.py +1132 -0
mslk/gemm/triton/matmul_perf_model.py +237 -0
mslk/gemm/triton/utils.py +128 -0
mslk/kv_cache/__init__.py +11 -0
mslk/moe/__init__.py +26 -0
mslk/moe/activation.py +291 -0
mslk/moe/gather_scatter.py +739 -0
mslk/moe/layers.py +1240 -0
mslk/moe/shuffling.py +421 -0
mslk/mslk.so +0 -0
mslk/quantize/__init__.py +11 -0
mslk/quantize/shuffle.py +306 -0
mslk/quantize/triton/__init__.py +7 -0
mslk/quantize/triton/fp4_quantize.py +5942 -0
mslk/quantize/triton/fp8_quantize.py +1902 -0
mslk/testing/__init__.py +7 -0
mslk/testing/attributes.py +60 -0
mslk/testing/rocm.py +91 -0
mslk/utils/__init__.py +7 -0
mslk/utils/torch/__init__.py +7 -0
mslk/utils/torch/library.py +150 -0
mslk/utils/triton/__init__.py +7 -0
mslk/utils/triton/fp8_utils.py +72 -0
mslk/utils/triton/utils.py +128 -0
mslk/version.py +11 -0
mslk_cuda_nightly-2026.1.19.dist-info/METADATA +102 -0
mslk_cuda_nightly-2026.1.19.dist-info/RECORD +116 -0
mslk_cuda_nightly-2026.1.19.dist-info/WHEEL +5 -0
mslk_cuda_nightly-2026.1.19.dist-info/licenses/LICENSE +30 -0
mslk_cuda_nightly-2026.1.19.dist-info/top_level.txt +1 -0

mslk/attention/fmha/cutlass_blackwell.py ADDED Viewed

@@ -0,0 +1,560 @@
+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the BSD-style license found in the
+# LICENSE file in the root directory of this source tree.
+# pyre-unsafe
+from typing import Any, Iterable, List, Optional, Set, Tuple, Union
+import torch
+from .attn_bias import (
+    AttentionBias,
+    BlockDiagonalCausalFromBottomRightMask,
+    BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+    BlockDiagonalCausalLocalAttentionMask,
+    BlockDiagonalCausalLocalAttentionPaddedKeysMask,
+    BlockDiagonalCausalMask,
+    BlockDiagonalCausalWithOffsetGappyKeysMask,
+    BlockDiagonalCausalWithOffsetPaddedKeysMask,
+    BlockDiagonalGappyKeysMask,
+    BlockDiagonalLocalAttentionPaddedKeysMask,
+    BlockDiagonalMask,
+    BlockDiagonalPaddedKeysMask,
+    LocalAttentionFromBottomRightMask,
+    LowerTriangularFromBottomRightLocalAttentionMask,
+    LowerTriangularFromBottomRightMask,
+    LowerTriangularMask,
+)
+from .common import AttentionBwOpBase, AttentionFwOpBase, Context, Gradients, Inputs
+from .utils.op_common import register_operator
+def _get_operator(name: str):
+    def no_such_operator(*args, **kwargs):
+        raise RuntimeError(
+            "No such operator "
+            f"mslk.attention.cutlass_blackwell_fmha.{name} "
+            "- did you forget to build xformers with `python setup.py develop`?"
+        )
+    try:
+        # type: ignore  # pyre-ignore
+        from mslk.attention.cutlass_blackwell_fmha import (
+            cutlass_blackwell_fmha_interface as fmha,
+        )
+        return getattr(fmha, name)  # type: ignore  # pyre-ignore
+    except (RuntimeError, ModuleNotFoundError):
+        return no_such_operator
+def _convert_input_format(
+    inp: Inputs,
+) -> Tuple[
+    Inputs,
+    Optional[torch.Tensor],
+    Optional[int],
+    Optional[torch.Tensor],
+    Optional[int],
+    Optional[torch.Tensor],
+]:
+    assert inp.query.ndim in (4, 5)
+    query, key, value = inp.query, inp.key, inp.value
+    attn_bias = inp.attn_bias
+    if isinstance(attn_bias, BlockDiagonalMask):
+        assert attn_bias.k_seqinfo.seqstart.device == inp.query.device
+        cu_seqlen_k = attn_bias.k_seqinfo.seqstart
+        cu_seqlen_q = attn_bias.q_seqinfo.seqstart
+        max_seqlen_q = attn_bias.q_seqinfo.max_seqlen
+        max_seqlen_k = attn_bias.k_seqinfo.max_seqlen
+        seqused_k = None
+    elif isinstance(
+        attn_bias,
+        (
+            BlockDiagonalPaddedKeysMask,
+            BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            BlockDiagonalGappyKeysMask,
+            BlockDiagonalCausalWithOffsetGappyKeysMask,
+            BlockDiagonalLocalAttentionPaddedKeysMask,
+            BlockDiagonalCausalLocalAttentionPaddedKeysMask,
+        ),
+    ):
+        assert attn_bias.k_seqinfo.seqstart.device == inp.query.device
+        cu_seqlen_k = attn_bias.k_seqinfo.seqstart
+        cu_seqlen_q = attn_bias.q_seqinfo.seqstart
+        max_seqlen_q = attn_bias.q_seqinfo.max_seqlen
+        max_seqlen_k = attn_bias.k_seqinfo.max_seqlen
+        # All these mask types inherit from classes that have seqlen attribute
+        seqused_k = attn_bias.k_seqinfo.seqlen
+        assert seqused_k is not None
+    else:
+        cu_seqlen_k = None
+        cu_seqlen_q = None
+        seqused_k = None
+        max_seqlen_q = None
+        max_seqlen_k = None
+    if query.ndim == 5:  # GQA
+        # Fold the group/head_in_group dimensions together
+        def fold(x):
+            # Either the head is replicated
+            if x.stride(3) == 0:
+                return x[:, :, :, 0]
+            # Or we reshape
+            return x.reshape(
+                [
+                    x.shape[0],
+                    x.shape[1],
+                    -1,
+                    x.shape[4],
+                ]
+            )
+        query = fold(query)
+        key = fold(key)
+        value = fold(value)
+    if cu_seqlen_k is not None and query.ndim == 4:
+        # Fold to 3D when using varlen
+        def fold(x):
+            assert x.shape[0] == 1
+            x = x.squeeze(0)
+            assert x.ndim == 3
+            if x.stride(1) == 0:
+                # BMHK for MQA with kv_head = 1
+                return x[:, 0, :].unsqueeze(1)
+            return x
+        query = fold(query)
+        key = fold(key)
+        value = fold(value)
+    new_inp = Inputs(
+        query=query,
+        key=key,
+        value=value,
+        attn_bias=attn_bias,
+        p=inp.p,
+        scale=inp.scale,
+        output_dtype=inp.output_dtype,
+        is_partial=inp.is_partial,
+    )
+    return new_inp, cu_seqlen_q, max_seqlen_q, cu_seqlen_k, max_seqlen_k, seqused_k
+def _is_seqlen_q_le_seqlen_k(
+    cu_seqlens_q_py: List[int], cu_seqlens_k_py: List[int]
+) -> bool:
+    if len(cu_seqlens_q_py) < 2 or len(cu_seqlens_k_py) < 2:
+        # The seqlens q and k info does not exist on CPU
+        return True
+    cu_seqlens_q = torch.as_tensor(cu_seqlens_q_py, dtype=torch.int, device="cpu")
+    cu_seqlens_k = torch.as_tensor(cu_seqlens_k_py, dtype=torch.int, device="cpu")
+    seqlens_q = cu_seqlens_q[1:] - cu_seqlens_q[:-1]
+    seqlens_k = cu_seqlens_k[1:] - cu_seqlens_k[:-1]
+    return bool(torch.all(seqlens_k >= seqlens_q))
+def _is_causal(attn_bias: Optional[Union[torch.Tensor, AttentionBias]]) -> bool:
+    return isinstance(
+        attn_bias,
+        (
+            LowerTriangularMask,
+            BlockDiagonalCausalMask,
+            LowerTriangularFromBottomRightMask,
+            BlockDiagonalCausalFromBottomRightMask,
+            LowerTriangularFromBottomRightLocalAttentionMask,
+            BlockDiagonalCausalLocalAttentionMask,
+            BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+            BlockDiagonalCausalLocalAttentionPaddedKeysMask,
+            BlockDiagonalCausalWithOffsetGappyKeysMask,
+            BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        ),
+    )
+def _is_bottom_right(attn_bias: Optional[Union[torch.Tensor, AttentionBias]]) -> bool:
+    return isinstance(
+        attn_bias,
+        (
+            LowerTriangularFromBottomRightMask,
+            BlockDiagonalCausalFromBottomRightMask,
+            LocalAttentionFromBottomRightMask,
+            BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+            BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            BlockDiagonalLocalAttentionPaddedKeysMask,
+            BlockDiagonalCausalWithOffsetGappyKeysMask,
+            BlockDiagonalCausalLocalAttentionPaddedKeysMask,
+        ),
+    )
+def _window_size(
+    attn_bias: Optional[Union[torch.Tensor, AttentionBias]],
+) -> Tuple[int, int]:
+    win_left = -1
+    win_right = -1
+    if isinstance(
+        attn_bias,
+        (
+            BlockDiagonalCausalLocalAttentionMask,
+            BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+            LowerTriangularFromBottomRightLocalAttentionMask,
+            BlockDiagonalCausalLocalAttentionPaddedKeysMask,
+        ),
+    ):
+        win_left = attn_bias._window_size - 1
+    if isinstance(
+        attn_bias,
+        (
+            BlockDiagonalLocalAttentionPaddedKeysMask,
+            LocalAttentionFromBottomRightMask,
+        ),
+    ):
+        win_left = attn_bias.window_left
+        win_right = attn_bias.window_right
+    return (win_left, win_right)
+@register_operator
+class FwOp(AttentionFwOpBase):
+    OPERATOR = _get_operator("_cutlass_blackwell_fmha_forward")
+    SUPPORTED_DEVICES: Set[str] = {"cuda"}
+    SUPPORTED_DTYPES: Set[torch.dtype] = {torch.bfloat16, torch.float16}
+    SUPPORTED_MAX_K = 128
+    SUPPORTED_MIN_K = 64
+    SUPPORTED_ATTN_BIAS_TYPES: Iterable[Any] = (
+        type(None),
+        LowerTriangularMask,
+        LowerTriangularFromBottomRightMask,
+        BlockDiagonalCausalFromBottomRightMask,
+        BlockDiagonalMask,
+        BlockDiagonalCausalMask,
+        BlockDiagonalPaddedKeysMask,
+        BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        BlockDiagonalGappyKeysMask,
+        BlockDiagonalCausalWithOffsetGappyKeysMask,
+        BlockDiagonalLocalAttentionPaddedKeysMask,
+        BlockDiagonalCausalLocalAttentionPaddedKeysMask,
+        LocalAttentionFromBottomRightMask,
+        LowerTriangularFromBottomRightLocalAttentionMask,
+        BlockDiagonalCausalLocalAttentionMask,
+        BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+    )
+    SUPPORTS_DROPOUT = False
+    SUPPORTS_CUSTOM_SCALE = True
+    SUPPORTS_DIFFERENT_VALUE_EMBED = False
+    SUPPORTS_BMGHK = True
+    VARLEN_LSE_PACKED = True
+    SUPPORTS_PARTIAL = False
+    CUDA_MINIMUM_COMPUTE_CAPABILITY = (10, 0)
+    NAME = "cutlassF-blackwell"
+    _TEST_K: List[int] = [64, 128]
+    @classmethod
+    def not_supported_reasons(cls, d: Inputs) -> List[str]:
+        reasons = super(FwOp, cls).not_supported_reasons(d)
+        attn_bias = d.attn_bias
+        if isinstance(attn_bias, BlockDiagonalCausalMask):
+            (
+                _,
+                cu_seqlens_q,
+                _,
+                cu_seqlens_k,
+                _,
+                _,
+            ) = _convert_input_format(d)
+            if not _is_seqlen_q_le_seqlen_k(
+                attn_bias.q_seqinfo.seqstart_py,
+                attn_bias.k_seqinfo.seqstart_py,
+            ):
+                reasons.append("seqlens_k must be >= seqlens_q")
+        if d.query.ndim < 4 or d.key.ndim < 4 or d.value.ndim < 4:
+            reasons.append("Only supports BMHK or BMGHK")
+        return reasons
+    @classmethod
+    def shape_not_supported_reasons(
+        cls, Mq: int, Mkv: int, K: int, Kv: int
+    ) -> List[str]:
+        reasons = super().shape_not_supported_reasons(Mq, Mkv, K, Kv)
+        if K not in [64, 128] or Kv not in [64, 128]:
+            reasons.append(f"Embed dim {K} not supported")
+        elif Mkv != 0 and Mq > Mkv:
+            reasons.append(f"Only support Mq ({Mq}) <= Mk ({Mkv})")
+        return reasons
+    @classmethod
+    def apply(
+        cls, inp: Inputs, needs_gradient: bool
+    ) -> Tuple[torch.Tensor, Optional[Context]]:
+        q_shape = inp.query.shape
+        (
+            inp,
+            cu_seqlens_q,
+            max_seq_len_q,
+            cu_seqlens_k,
+            max_seq_len_k,
+            seqused_k,
+        ) = _convert_input_format(inp)
+        window_left, window_right = _window_size(inp.attn_bias)
+        if inp.query.numel() > 0 and inp.key.numel() > 0:
+            out, lse = cls.OPERATOR(
+                q=inp.query,
+                k=inp.key,
+                v=inp.value,
+                cu_seqlens_q=cu_seqlens_q,
+                cu_seqlens_k=cu_seqlens_k,
+                seqlen_kv=seqused_k,
+                max_seq_len_q=max_seq_len_q,
+                max_seq_len_k=max_seq_len_k,
+                softmax_scale=inp.scale,
+                causal=_is_causal(inp.attn_bias),
+                window_left=window_left,
+                window_right=window_right,
+                bottom_right=_is_bottom_right(inp.attn_bias),
+            )
+        else:
+            out = torch.zeros_like(inp.query)
+            if cu_seqlens_q is None:
+                assert inp.query.ndim == 4
+                B, M, H, K = inp.query.shape
+                lse_shape = [B, H, M]
+            else:
+                assert inp.query.ndim == 3
+                M, H, K = inp.query.shape
+                lse_shape = [1, H, M]
+            lse = torch.zeros(*lse_shape, dtype=torch.float, device=out.device)
+        out = out.reshape(q_shape)
+        if not needs_gradient:
+            return out, None
+        return out, Context(out=out, lse=lse)
+@register_operator
+class FwOpDecode(AttentionFwOpBase):
+    """CUTLASS Blackwell decode kernel optimized for inference with sequence length 1.
+    This operator is specifically designed for the decode phase of autoregressive generation
+    where query length is 1.
+    """
+    OPERATOR = _get_operator("cutlass_blackwell_fmha_decode_forward")
+    SUPPORTED_DEVICES: Set[str] = {"cuda"}
+    SUPPORTED_DTYPES: Set[torch.dtype] = {torch.bfloat16}
+    SUPPORTED_MAX_K = 128
+    SUPPORTED_MIN_K = 64
+    SUPPORTED_ATTN_BIAS_TYPES: Iterable[Any] = (
+        type(None),
+        BlockDiagonalCausalWithOffsetPaddedKeysMask,
+    )
+    SUPPORTS_DROPOUT = False
+    SUPPORTS_CUSTOM_SCALE = True
+    SUPPORTS_DIFFERENT_VALUE_EMBED = False
+    SUPPORTS_BMGHK = True
+    VARLEN_LSE_PACKED = True
+    SUPPORTS_PARTIAL = False
+    CUDA_MINIMUM_COMPUTE_CAPABILITY = (10, 0)
+    NAME = "cutlassF-blackwell-decode"
+    _TEST_K: List[int] = [64, 128]
+    @classmethod
+    def not_supported_reasons(cls, d: Inputs) -> List[str]:
+        reasons = super(FwOpDecode, cls).not_supported_reasons(d)
+        q_shape = d.query.shape
+        if q_shape[-2] > 16:
+            reasons.append(f"Max qHeads ({q_shape[-2]}) per KV head is > 16")
+        return reasons
+    @classmethod
+    def shape_not_supported_reasons(
+        cls, Mq: int, Mkv: int, K: int, Kv: int
+    ) -> List[str]:
+        reasons = super().shape_not_supported_reasons(Mq, Mkv, K, Kv)
+        if K not in [64, 128]:
+            reasons.append(f"Embed dim {K} not supported")
+        return reasons
+    @classmethod
+    def apply(
+        cls, inp: Inputs, needs_gradient: bool
+    ) -> Tuple[torch.Tensor, Optional[Context]]:
+        q_shape = inp.query.shape
+        (
+            inp,
+            cu_seqlens_q,
+            max_seq_len_q,
+            cu_seqlens_k,
+            max_seq_len_k,
+            seqused_k,
+        ) = _convert_input_format(inp)
+        window_left, window_right = _window_size(inp.attn_bias)
+        if inp.query.numel() > 0 and inp.key.numel() > 0:
+            out, lse = cls.OPERATOR(
+                q=inp.query,
+                k=inp.key,
+                v=inp.value,
+                cu_seqlens_q=cu_seqlens_q,  # not used
+                cu_seqlens_k=cu_seqlens_k,  # not used
+                seqlen_kv=seqused_k,
+                max_seq_len_q=max_seq_len_q,  # not used
+                max_seq_len_k=max_seq_len_k,  # not used
+                softmax_scale=inp.scale,  # not used
+                causal=_is_causal(inp.attn_bias),
+                window_left=window_left,
+                window_right=window_right,
+                bottom_right=_is_bottom_right(inp.attn_bias),  # not used
+            )
+        else:
+            out = torch.zeros_like(inp.query)
+            if cu_seqlens_q is None:
+                assert inp.query.ndim == 4
+                B, M, H, K = inp.query.shape
+                # lse_shape = [B, H, M]
+            else:
+                assert inp.query.ndim == 3
+                M, H, K = inp.query.shape
+                # lse_shape = [1, H, M]
+            # lse = torch.zeros(*lse_shape, dtype=torch.float, device=out.device)
+        out = out.reshape(q_shape)
+        assert not needs_gradient, "FwOpDecode does not support gradient computation"
+        return out, None
+@register_operator
+class BwOp(AttentionBwOpBase):
+    __doc__ = FwOp.__doc__
+    OPERATOR = _get_operator("_cutlass_blackwell_fmha_backward")
+    SUPPORTED_DEVICES = FwOp.SUPPORTED_DEVICES
+    SUPPORTED_DTYPES = FwOp.SUPPORTED_DTYPES
+    SUPPORTED_MAX_K = FwOp.SUPPORTED_MAX_K
+    SUPPORTED_MIN_K = FwOp.SUPPORTED_MIN_K
+    SUPPORTED_ATTN_BIAS_TYPES: Iterable[Any] = (
+        type(None),
+        LowerTriangularMask,
+        LowerTriangularFromBottomRightMask,
+        BlockDiagonalCausalFromBottomRightMask,
+        BlockDiagonalMask,
+        BlockDiagonalCausalMask,
+        LocalAttentionFromBottomRightMask,
+        LowerTriangularFromBottomRightLocalAttentionMask,
+        BlockDiagonalCausalLocalAttentionMask,
+        BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+    )
+    SUPPORTS_ATTN_BIAS_GRAD = False
+    SUPPORTS_DROPOUT = FwOp.SUPPORTS_DROPOUT
+    SUPPORTS_CUSTOM_SCALE = FwOp.SUPPORTS_CUSTOM_SCALE
+    SUPPORTS_DIFFERENT_VALUE_EMBED = False
+    SUPPORTS_BMGHK = False
+    VARLEN_LSE_PACKED = True
+    SUPPORTS_PARTIAL = False
+    CUDA_MINIMUM_COMPUTE_CAPABILITY = (10, 0)
+    NAME = "cutlassB-blackwell"
+    @classmethod
+    def not_supported_reasons(cls, d: Inputs) -> List[str]:
+        reasons = super(BwOp, cls).not_supported_reasons(d)
+        attn_bias = d.attn_bias
+        if isinstance(attn_bias, BlockDiagonalCausalMask):
+            (
+                _,
+                cu_seqlens_q,
+                _,
+                cu_seqlens_k,
+                _,
+                _,
+            ) = _convert_input_format(d)
+            if not _is_seqlen_q_le_seqlen_k(
+                attn_bias.q_seqinfo.seqstart_py,
+                attn_bias.k_seqinfo.seqstart_py,
+            ):
+                reasons.append("seqlens_k must be >= seqlens_q")
+        if d.query.ndim != 4 or d.key.ndim != 4 or d.value.ndim != 4:
+            reasons.append("Only supports BMHK format")
+        return reasons
+    @classmethod
+    def shape_not_supported_reasons(
+        cls, Mq: int, Mkv: int, K: int, Kv: int
+    ) -> List[str]:
+        reasons = super().shape_not_supported_reasons(Mq, Mkv, K, Kv)
+        if K not in [64, 128]:
+            reasons.append(f"Embed dim {K} not supported")
+        elif Mkv != 0 and Mq > Mkv:
+            reasons.append(f"Only support Mq ({Mq}) <= Mk ({Mkv})")
+        elif Mq < 8:
+            reasons.append(f"Only support Mq ({Mq}) >= 8")
+        return reasons
+    @classmethod
+    def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
+        assert inp.query.ndim == 4
+        dq_shape, dk_shape, dv_shape = inp.query.shape, inp.key.shape, inp.value.shape
+        (
+            inp,
+            cu_seqlens_q,
+            max_seq_len_q,
+            cu_seqlens_k,
+            max_seq_len_k,
+            _,
+        ) = _convert_input_format(inp)
+        window_left, window_right = _window_size(inp.attn_bias)
+        is_varlen = cu_seqlens_q is not None
+        if is_varlen:
+            def fold(x):
+                assert x.shape[0] == 1
+                x = x.squeeze(0)
+                assert x.ndim == 3
+                return x
+            grad = fold(grad)
+            ctx.out = fold(ctx.out)
+        if inp.query.numel() and inp.key.numel():
+            grads = Gradients(
+                *cls.OPERATOR(
+                    dout=grad,
+                    q=inp.query,
+                    k=inp.key,
+                    v=inp.value,
+                    out=ctx.out,
+                    softmax_lse=ctx.lse,
+                    cu_seqlens_q=cu_seqlens_q,
+                    cu_seqlens_k=cu_seqlens_k,
+                    max_seq_len_q=max_seq_len_q,
+                    max_seq_len_k=max_seq_len_k,
+                    causal=_is_causal(inp.attn_bias),
+                    window_left=window_left,
+                    window_right=window_right,
+                    bottom_right=_is_bottom_right(inp.attn_bias),
+                )
+            )
+        else:
+            grads = Gradients(
+                dq=torch.zeros_like(inp.query),
+                dk=torch.zeros_like(inp.key),
+                dv=torch.zeros_like(inp.value),
+            )
+        grads.dq = grads.dq.reshape(dq_shape)
+        grads.dk = grads.dk.reshape(dk_shape)
+        grads.dv = grads.dv.reshape(dv_shape)
+        return grads