PyPI - blksprs - Versions diffs - 1.0__py3-none-any.whl → 1.1__py3-none-any.whl - Mend

blksprs 1.0py3-none-any.whl → 1.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

blksprs/layouting/distribution_layout.py +114 -0
blksprs/layouting/sparsity_layout.py +17 -7
blksprs/misc/broadcast_addition.py +132 -0
blksprs/ops/conversion.py +40 -15
blksprs/ops/distribution.py +362 -0
blksprs/ops/exp.py +18 -8
blksprs/ops/{matmul_sss.py → matmul.py} +28 -26
blksprs/ops/row_wise_sum.py +21 -5
blksprs/ops/softmax.py +23 -12
blksprs/ops/transpose.py +19 -7
blksprs/utils/tools.py +1 -28
blksprs/utils/validation.py +53 -1
{blksprs-1.0.dist-info → blksprs-1.1.dist-info}/METADATA +32 -13
blksprs-1.1.dist-info/RECORD +17 -0
{blksprs-1.0.dist-info → blksprs-1.1.dist-info}/WHEEL +1 -1
blksprs-1.0.dist-info/RECORD +0 -14
{blksprs-1.0.dist-info → blksprs-1.1.dist-info}/top_level.txt +0 -0

blksprs/ops/distribution.py ADDED Viewed

@@ -0,0 +1,362 @@
+import torch
+import triton
+from torch import Tensor
+from triton import language as tl
+from blksprs.utils.tools import get_triton_block_size
+from blksprs.utils.validation import validate_contiguous, validate_dimensions, validate_device, \
+    validate_sparsity, validate_dtype_int, validate_sparsity_block_size, validate_triton_block_size
+def gather(src: Tensor, sparsity_layout_src: Tensor, idx: Tensor, sparsity_layout_idx: Tensor,
+           sparsity_block_size: int, triton_block_size: int = None) -> Tensor:
+    """Applies a gather operation on a block-sparse tensor in compressed form.
+    Args:
+        src (Tensor): The source block-sparse tensor in compressed form to gather from.
+        sparsity_layout_src (Tensor): The sparsity layout of the source block-sparse tensor.
+        idx (Tensor): The block-sparse indices tensor in compressed form specifying how to gather from the source tensor.
+        sparsity_layout_idx (Tensor): The sparsity layout of the indices block-sparse tensor.
+        sparsity_block_size (int): The size of the sparsity blocks.
+        triton_block_size (int, optional): The block size to use for the triton kernel (default ``None``).
+    Returns:
+        Tensor: The result of the gather operation as a block-sparse tensor in compressed form.
+    """
+    validate_dimensions(src, idx)
+    validate_contiguous(src, idx)
+    validate_dtype_int(idx)
+    validate_device(src, idx)
+    validate_sparsity(sparsity_block_size, (src, sparsity_layout_src), (idx, sparsity_layout_idx))
+    validate_sparsity_block_size(sparsity_block_size, src, idx)
+    validate_triton_block_size(triton_block_size, sparsity_block_size)
+    sparsity_layout_x_flat = sparsity_layout_src.reshape(-1)
+    sparsity_reverse_lut_x = ((torch.cumsum(sparsity_layout_x_flat, dim=-1) - 1) *
+                              (sparsity_layout_x_flat == 1) -
+                              (1 * (sparsity_layout_x_flat == 0)))
+    sparsity_lut_i = torch.nonzero(sparsity_layout_idx).contiguous()
+    validate_contiguous(sparsity_layout_src, sparsity_reverse_lut_x,
+                        sparsity_layout_idx, sparsity_lut_i)
+    return _BlocksparseGather.apply(src, sparsity_layout_src, sparsity_reverse_lut_x,
+                                    idx, sparsity_layout_idx, sparsity_lut_i,
+                                    sparsity_block_size, triton_block_size)
+class _BlocksparseGather(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, x: Tensor, sparsity_layout_x: Tensor, sparsity_reverse_lut_x: Tensor,
+                i: Tensor, sparsity_layout_i: Tensor, sparsity_lut_i: Tensor,
+                sparsity_block_size: int, triton_block_size: int = None) -> Tensor:
+        output = torch.empty_like(i, dtype=x.dtype)
+        x_b, x_r, x_c = x.size()
+        x_b_s, x_r_s, x_c_s = x.stride()
+        s_l_x_b, s_l_x_r, s_l_x_c = sparsity_layout_x.size()
+        s_l_x_b_s, s_l_x_r_s, s_l_x_c_s = sparsity_layout_x.stride()
+        i_b, i_r, i_c = i.size()
+        i_b_s, i_r_s, i_c_s = i.stride()
+        s_lut_i_r, s_lut_i_c = sparsity_lut_i.size()
+        s_lut_i_r_s, s_lut_i_c_s = sparsity_lut_i.stride()
+        o_b, o_r, o_c = output.size()
+        o_b_s, o_r_s, o_c_s = output.stride()
+        if triton_block_size is None:
+            triton_block_size = get_triton_block_size(sparsity_block_size)
+        triton_grid = lambda meta: [o_b,
+                                    triton.cdiv(o_r, meta["TRITON_BLOCK_SIZE"]),
+                                    triton.cdiv(o_c, meta["TRITON_BLOCK_SIZE"])]
+        (_BlocksparseGather.kernel_blocksparse_gather[triton_grid]
+         (x,
+          x_b, x_b_s, x_r_s, x_c_s,
+          s_l_x_b, s_l_x_b_s, s_l_x_r_s, s_l_x_c_s,
+          sparsity_reverse_lut_x,
+          i,
+          i_b, i_b_s, i_r_s, i_c_s,
+          output,
+          o_b, o_b_s, o_r_s, o_c_s,
+          sparsity_lut_i, s_lut_i_r, s_lut_i_r_s, s_lut_i_c_s,
+          sparsity_block_size,
+          triton_block_size))
+        ctx.save_for_backward(sparsity_layout_x, i, sparsity_layout_i)
+        ctx.sparsity_block_size = sparsity_block_size
+        ctx.triton_block_size = triton_block_size
+        return output
+    @staticmethod
+    def backward(ctx, grad_output):
+        sparsity_layout_x, i, sparsity_layout_i = ctx.saved_tensors
+        sparsity_block_size = ctx.sparsity_block_size
+        triton_block_size = ctx.triton_block_size
+        return scatter_reduce(grad_output, sparsity_layout_i,
+                              i,
+                              sparsity_layout_x,
+                              sparsity_block_size,
+                              reduce_op="sum",
+                              triton_block_size=triton_block_size), None, None, None, None, None, None, None
+    @staticmethod
+    @triton.jit
+    def kernel_blocksparse_gather(x,
+                                  x_b, x_b_s, x_r_s, x_c_s,
+                                  s_l_x_b, s_l_x_b_s, s_l_x_r_s, s_l_x_c_s,
+                                  r_lut_x,
+                                  i,
+                                  i_b, i_b_s, i_r_s, i_c_s,
+                                  o,
+                                  o_b, o_b_s, o_r_s, o_c_s,
+                                  s_lut_o, s_lut_o_r, s_lut_o_r_s, s_lut_o_c_s,
+                                  sparsity_block_size,
+                                  TRITON_BLOCK_SIZE: tl.constexpr) -> None:
+        # Get triton block indices
+        pid_blk = tl.program_id(axis=0)
+        pid_row = tl.program_id(axis=1)
+        pid_col = tl.program_id(axis=2)
+        # Get position of current sparsity block consisting of its batch, row, and column index
+        spa_bat_o_idx = (pid_blk * s_lut_o_r_s + 0 * s_lut_o_c_s)
+        spa_bat_o_msk = (spa_bat_o_idx < s_lut_o_r * s_lut_o_r_s)
+        spa_bat_o = tl.load(s_lut_o + spa_bat_o_idx, mask=spa_bat_o_msk)
+        spa_row_o_idx = (pid_blk * s_lut_o_r_s + 1 * s_lut_o_c_s)
+        spa_row_o_msk = (spa_row_o_idx < s_lut_o_r * s_lut_o_r_s)
+        spa_row_o = tl.load(s_lut_o + spa_row_o_idx, mask=spa_row_o_msk)
+        # Load index values
+        blk_i_idx = ((pid_blk * i_b_s) +
+                     ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * i_r_s)[:, None] +
+                     ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * i_c_s)[None, :])
+        blk_i_msk = (blk_i_idx < i_b * i_b_s)
+        blk_i = tl.load(i + blk_i_idx, mask=blk_i_msk).to(tl.int32)
+        # Get positions of sparsity blocks
+        pos_spa_blk_x = blk_i // sparsity_block_size
+        pos_spa_col_x = blk_i % sparsity_block_size
+        # Load reverse sparsity indices for x
+        rev_idx_spa_x_idx = ((spa_bat_o * s_l_x_b_s) +
+                             (spa_row_o * s_l_x_r_s) +
+                             (pos_spa_blk_x * s_l_x_c_s))
+        rev_idx_spa_x_msk = (rev_idx_spa_x_idx < s_l_x_b * s_l_x_b_s)
+        rev_idx_spa_x = tl.load(r_lut_x + rev_idx_spa_x_idx, mask=rev_idx_spa_x_msk).to(tl.int32)
+        # Load x values
+        blk_x_idx = ((rev_idx_spa_x * x_b_s) +
+                     ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_r_s)[:, None] +
+                     (pos_spa_col_x * x_c_s))
+        blk_x_msk = (blk_x_idx < x_b * x_b_s)
+        blk_x = tl.load(x + blk_x_idx, mask=blk_x_msk)
+        # Store output
+        blk_o_idx = ((pid_blk * o_b_s) +
+                     ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_r_s)[:, None] +
+                     ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_c_s)[None, :])
+        blk_o_msk = (blk_o_idx < o_b * o_b_s)
+        tl.store(o + blk_o_idx, blk_x, mask=blk_o_msk)
+def scatter(src: Tensor, sparsity_layout_src: Tensor,
+            idx: Tensor,
+            sparsity_layout_tgt: Tensor,
+            sparsity_block_size: int, triton_block_size: int = None) -> Tensor:
+    """Wrapper for ``scatter_reduce`` with ``reduce_op="none"``.
+    """
+    return scatter_reduce(src, sparsity_layout_src,
+                          idx,
+                          sparsity_layout_tgt,
+                          sparsity_block_size,
+                          reduce_op="none", triton_block_size=triton_block_size)
+def scatter_reduce(src: Tensor, sparsity_layout_src: Tensor,
+                   idx: Tensor,
+                   sparsity_layout_tgt: Tensor,
+                   sparsity_block_size: int,
+                   reduce_op: str = "sum", triton_block_size: int = None) -> Tensor:
+    """Applies a scatter operation on a block-sparse tensor in compressed form.
+    Args:
+        src (Tensor): The source block-sparse tensor in compressed form to scatter from.
+        sparsity_layout_src (Tensor): The sparsity layout of the source block-sparse tensor.
+        idx (Tensor): The block-sparse indices tensor in compressed form specifying how to scatter to the target tensor.
+        sparsity_layout_tgt (Tensor): The sparsity layout of the target block-sparse tensor.
+        sparsity_block_size (int): The size of the sparsity blocks.
+        reduce_op (str, optional): The reduction operation to apply during the scatter operation (default ``"sum"``).
+            Supported operations are ``"none"`` and ``"sum"``.
+        triton_block_size (int, optional): The block size to use for the triton kernel (default ``None``).
+    Returns:
+        Tensor: The result of the scatter operation as a block-sparse tensor in compressed form.
+    """
+    validate_dimensions(src, idx)
+    validate_contiguous(src, idx)
+    validate_dtype_int(idx)
+    validate_device(src, idx)
+    validate_sparsity(sparsity_block_size, (src, sparsity_layout_src), (idx, sparsity_layout_src))
+    validate_sparsity_block_size(sparsity_block_size, src, idx)
+    validate_triton_block_size(triton_block_size, sparsity_block_size)
+    if reduce_op not in ["none", "sum"]:
+        raise ValueError(f"Reduction operation '{reduce_op}' is not supported")
+    sparsity_lut_x = torch.nonzero(sparsity_layout_src).contiguous()
+    sparsity_layout_o_flat = sparsity_layout_tgt.reshape(-1)
+    sparsity_reverse_lut_o = ((torch.cumsum(sparsity_layout_o_flat, dim=-1) - 1) *
+                              (sparsity_layout_o_flat == 1) -
+                              (1 * (sparsity_layout_o_flat == 0)))
+    n_sparse_blocks = torch.sum(sparsity_layout_tgt.to(torch.int)).item()
+    validate_contiguous(sparsity_layout_src, sparsity_lut_x,
+                        sparsity_layout_tgt, sparsity_reverse_lut_o)
+    return _BlocksparseScatterReduce.apply(src, sparsity_layout_src, sparsity_lut_x,
+                                           idx,
+                                           sparsity_layout_tgt, sparsity_reverse_lut_o,
+                                           sparsity_block_size, n_sparse_blocks,
+                                           reduce_op, triton_block_size)
+class _BlocksparseScatterReduce(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, x: Tensor, sparsity_layout_x: Tensor, sparsity_lut_x: Tensor,
+                i: Tensor,
+                sparsity_layout_o: Tensor, sparsity_reverse_lut_o: Tensor,
+                sparsity_block_size: int, n_sparse_blocks: int,
+                reduce_op: str, triton_block_size: int) -> Tensor:
+        output = torch.zeros(size=(n_sparse_blocks, sparsity_block_size, sparsity_block_size),
+                             dtype=x.dtype, device=x.device)
+        x_b, x_r, x_c = x.size()
+        x_b_s, x_r_s, x_c_s = x.stride()
+        s_lut_x_r, s_lut_x_c = sparsity_lut_x.size()
+        s_lut_x_r_s, s_lut_x_c_s = sparsity_lut_x.stride()
+        i_b, i_r, i_c = i.size()
+        i_b_s, i_r_s, i_c_s = i.stride()
+        o_b, o_r, o_c = output.size()
+        o_b_s, o_r_s, o_c_s = output.stride()
+        s_l_o_b, s_l_o_r, s_l_o_c = sparsity_layout_o.size()
+        s_l_o_b_s, s_l_o_r_s, s_l_o_c_s = sparsity_layout_o.stride()
+        if triton_block_size is None:
+            triton_block_size = get_triton_block_size(sparsity_block_size)
+        triton_grid = lambda meta: [x_b,
+                                    triton.cdiv(x_r, meta["TRITON_BLOCK_SIZE"]),
+                                    triton.cdiv(x_c, meta["TRITON_BLOCK_SIZE"])]
+        reduce_op_ind = 0
+        if reduce_op == "sum":
+            reduce_op_ind = 1
+        (_BlocksparseScatterReduce.kernel_blocksparse_scatter[triton_grid]
+         (x,
+          x_b, x_b_s, x_r_s, x_c_s,
+          sparsity_lut_x, s_lut_x_r, s_lut_x_r_s, s_lut_x_c_s,
+          i,
+          i_b, i_b_s, i_r_s, i_c_s,
+          output,
+          o_b, o_b_s, o_r_s, o_c_s,
+          s_l_o_b, s_l_o_b_s, s_l_o_r_s, s_l_o_c_s,
+          sparsity_reverse_lut_o,
+          reduce_op_ind,
+          sparsity_block_size,
+          triton_block_size))
+        ctx.save_for_backward(sparsity_layout_x, i, sparsity_layout_o)
+        ctx.sparsity_block_size = sparsity_block_size
+        ctx.reduce_op = reduce_op
+        ctx.triton_block_size = triton_block_size
+        return output
+    @staticmethod
+    def backward(ctx, grad_output):
+        sparsity_layout_x, i, sparsity_layout_o = ctx.saved_tensors
+        sparsity_block_size = ctx.sparsity_block_size
+        reduce_op = ctx.reduce_op
+        triton_block_size = ctx.triton_block_size
+        if reduce_op == "sum":
+            return gather(grad_output, sparsity_layout_o, i, sparsity_layout_x, sparsity_block_size,
+                          triton_block_size=triton_block_size), None, None, None, None, None, None, None, None, None
+        else:
+            raise ValueError(f"Reduction operation '{reduce_op}' does not support backward pass")
+    @staticmethod
+    @triton.jit
+    def kernel_blocksparse_scatter(x,
+                                   x_b, x_b_s, x_r_s, x_c_s,
+                                   s_lut_x, s_lut_x_r, s_lut_x_r_s, s_lut_x_c_s,
+                                   i,
+                                   i_b, i_b_s, i_r_s, i_c_s,
+                                   o,
+                                   o_b, o_b_s, o_r_s, o_c_s,
+                                   s_l_o_b, s_l_o_b_s, s_l_o_r_s, s_l_o_c_s,
+                                   r_lut_o,
+                                   reduce_op_ind,
+                                   sparsity_block_size,
+                                   TRITON_BLOCK_SIZE: tl.constexpr) -> None:
+        # Get triton block indices
+        pid_blk = tl.program_id(axis=0)
+        pid_row = tl.program_id(axis=1)
+        pid_col = tl.program_id(axis=2)
+        # Get position of current sparsity block consisting of its batch, row, and column index
+        spa_bat_x_idx = (pid_blk * s_lut_x_r_s + 0 * s_lut_x_c_s)
+        spa_bat_x_msk = (spa_bat_x_idx < s_lut_x_r * s_lut_x_r_s)
+        spa_bat_x = tl.load(s_lut_x + spa_bat_x_idx, mask=spa_bat_x_msk)
+        spa_row_x_idx = (pid_blk * s_lut_x_r_s + 1 * s_lut_x_c_s)
+        spa_row_x_msk = (spa_row_x_idx < s_lut_x_r * s_lut_x_r_s)
+        spa_row_x = tl.load(s_lut_x + spa_row_x_idx, mask=spa_row_x_msk)
+        # Load x values
+        blk_x_idx = ((pid_blk * x_b_s) +
+                     ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_r_s)[:, None] +
+                     ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_c_s)[None, :])
+        blk_x_msk = (blk_x_idx < x_b * x_b_s)
+        blk_x = tl.load(x + blk_x_idx, mask=blk_x_msk)
+        # Load index values
+        blk_i_idx = ((pid_blk * i_b_s) +
+                     ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * i_r_s)[:, None] +
+                     ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * i_c_s)[None, :])
+        blk_i_msk = (blk_i_idx < i_b * i_b_s)
+        blk_i = tl.load(i + blk_i_idx, mask=blk_i_msk).to(tl.int32)
+        # Get positions of sparsity blocks
+        pos_spa_blk_o = blk_i // sparsity_block_size
+        pos_spa_col_o = blk_i % sparsity_block_size
+        # Load reverse sparsity indices for o
+        rev_idx_spa_o_idx = ((spa_bat_x * s_l_o_b_s) +
+                             (spa_row_x * s_l_o_r_s) +
+                             (pos_spa_blk_o * s_l_o_c_s))
+        rev_idx_spa_o_msk = (rev_idx_spa_o_idx < s_l_o_b * s_l_o_b_s)
+        rev_idx_spa_o = tl.load(r_lut_o + rev_idx_spa_o_idx, mask=rev_idx_spa_o_msk).to(tl.int32)
+        # Store output
+        blk_o_idx = ((rev_idx_spa_o * o_b_s) +
+                     ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_r_s)[:, None] +
+                     (pos_spa_col_o * o_c_s))
+        blk_o_msk = (blk_o_idx < o_b * o_b_s)
+        if reduce_op_ind == 0:
+            tl.store(o + blk_o_idx, blk_x, mask=blk_o_msk)
+        elif reduce_op_ind == 1:
+            tl.atomic_add(o + blk_o_idx, blk_x, mask=blk_o_msk)

blksprs/ops/exp.py CHANGED Viewed

@@ -1,25 +1,35 @@
 import torch
 import triton
-from triton import language as tl
 from torch import Tensor
+from triton import language as tl
 from blksprs.utils.tools import get_triton_block_size
-from blksprs.utils.validation import validate_contiguous, validate_dimensions, validate_dtype_float, validate_device
+from blksprs.utils.validation import validate_contiguous, validate_dimensions, validate_device, \
+    validate_sparsity_block_size, validate_triton_block_size
 def exp(x: Tensor, sparsity_block_size: int, triton_block_size: int = None) -> Tensor:
-    """Applies the element-wise exponential function to the input tensor.
+    """Applies the element-wise exponential function to a block-sparse tensor.
+    Note:
+        This operation does not consider sparse blocks, i.e., these will not be set to ``e^0``.
+        Consider this when converting back to tensors in regular form.
+    Args:
+        x (Tensor): A block-sparse tensor in compressed form.
+        sparsity_block_size (int): The size of the sparsity blocks.
+        triton_block_size (int): The block size to use for the triton kernel (default ``None``).
-        Returns a new tensor with the exponential of the elements of the input tensor.
+    Returns:
+        Tensor: The exponential function applied to all elements of the input tensor as a block-sparse tensor in
+            compressed form.
-        Note:
-            This operation does not consider sparse blocks, i.e., these will not be set to ``e^0``.
-            Consider this when converting back to dense tensors.
     """
     validate_dimensions(x)
     validate_contiguous(x)
-    validate_dtype_float(x)
     validate_device(x)
+    validate_sparsity_block_size(sparsity_block_size, x)
+    validate_triton_block_size(triton_block_size, sparsity_block_size)
     return _BlocksparseExp.apply(x, sparsity_block_size, triton_block_size)

blksprs/ops/{matmul_sss.py → matmul.py} RENAMED Viewed

@@ -5,25 +5,39 @@ from triton import language as tl
 from blksprs.ops.transpose import transpose
 from blksprs.utils.tools import get_triton_block_size
-from blksprs.utils.validation import validate_contiguous, validate_dimensions, validate_dtype_float, validate_device, \
-    validate_sparsity
+from blksprs.utils.validation import validate_contiguous, validate_dimensions, validate_device, \
+    validate_sparsity, validate_sparsity_block_size, validate_triton_block_size
-def matmul_sss(x: Tensor, y: Tensor,
-               sparsity_layout_x: Tensor, sparsity_layout_y: Tensor, sparsity_layout_output: Tensor,
-               sparsity_block_size: int, triton_block_size: int = None) -> Tensor:
-    """Performs matrix multiplication between two blocksparse tensors.
+def matmul(x: Tensor, sparsity_layout_x: Tensor,
+           y: Tensor, sparsity_layout_y: Tensor,
+           sparsity_layout_output: Tensor,
+           sparsity_block_size: int, triton_block_size: int = None) -> Tensor:
+    """Performs matrix multiplication between two block-sparse tensors.
-    The desired sparsity layout of the output tensor is used to only calculate blocks that will be present in the output.
+    The sparsity layout of the output tensor is used to only calculate blocks that will be present in the output.
+    Args:
+        x (Tensor): A block-sparse tensor in compressed form.
+        y (Tensor): A block-sparse tensor in compressed form.
+        sparsity_layout_x (Tensor): The sparsity layout of the first block-sparse tensor.
+        sparsity_layout_y (Tensor): The sparsity layout of the second block-sparse tensor.
+        sparsity_layout_output (Tensor): The sparsity layout of the output tensor.
+        sparsity_block_size (int): The size of the sparsity blocks.
+        triton_block_size (int, optional): The block size to use for the triton kernel (default ``None``).
+    Returns:
+        Tensor: The result of the matrix multiplication as a block-sparse tensor in compressed form.
     """
     validate_dimensions(x, y)
     validate_contiguous(x, y)
-    validate_dtype_float(x, y)
     validate_device(x, y)
     validate_sparsity(sparsity_block_size, (x, sparsity_layout_x), (y, sparsity_layout_y))
     if sparsity_layout_x.size(-1) != sparsity_layout_y.size(-2):
         raise ValueError("Inner dimensions of tensors must match")
+    validate_sparsity_block_size(sparsity_block_size, x, y)
+    validate_triton_block_size(triton_block_size, sparsity_block_size)
     sparsity_layout_x_flat = sparsity_layout_x.reshape(-1)
     sparsity_reverse_lut_x = ((torch.cumsum(sparsity_layout_x_flat, dim=-1) - 1) *
@@ -98,10 +112,7 @@ class _BlocksparseMatmulSSS(torch.autograd.Function):
           sparsity_block_size,
           triton_block_size))
-        ctx.save_for_backward(x, y)
-        ctx.sparsity_layout_x = sparsity_layout_x
-        ctx.sparsity_layout_y = sparsity_layout_y
-        ctx.sparsity_layout_o = sparsity_layout_o
+        ctx.save_for_backward(x, sparsity_layout_x, y, sparsity_layout_y, sparsity_layout_o)
         ctx.sparsity_block_size = sparsity_block_size
         ctx.triton_block_size = triton_block_size
@@ -109,26 +120,17 @@ class _BlocksparseMatmulSSS(torch.autograd.Function):
     @staticmethod
     def backward(ctx, grad_output):
-        x, y = ctx.saved_tensors
-        sparsity_layout_x = ctx.sparsity_layout_x
-        sparsity_layout_y = ctx.sparsity_layout_y
-        sparsity_layout_o = ctx.sparsity_layout_o
+        x, sparsity_layout_x, y, sparsity_layout_y, sparsity_layout_o = ctx.saved_tensors
         sparsity_block_size = ctx.sparsity_block_size
         triton_block_size = ctx.triton_block_size
         x_t, sparsity_layout_x_t = transpose(x, sparsity_layout_x, sparsity_block_size, triton_block_size)
         y_t, sparsity_layout_y_t = transpose(y, sparsity_layout_y, sparsity_block_size, triton_block_size)
-        grad_x = matmul_sss(grad_output, y_t,
-                            sparsity_layout_o,
-                            sparsity_layout_y_t,
-                            sparsity_layout_x,
-                            sparsity_block_size, triton_block_size)
-        grad_y = matmul_sss(x_t, grad_output,
-                            sparsity_layout_x_t,
-                            sparsity_layout_o,
-                            sparsity_layout_y,
-                            sparsity_block_size, triton_block_size)
+        grad_x = matmul(grad_output, sparsity_layout_o, y_t, sparsity_layout_y_t, sparsity_layout_x,
+                        sparsity_block_size, triton_block_size)
+        grad_y = matmul(x_t, sparsity_layout_x_t, grad_output, sparsity_layout_o, sparsity_layout_y,
+                        sparsity_block_size, triton_block_size)
         return grad_x, grad_y, None, None, None, None, None, None, None, None, None

blksprs/ops/row_wise_sum.py CHANGED Viewed

@@ -4,23 +4,39 @@ from torch import Tensor
 from triton import language as tl
 from blksprs.utils.tools import get_triton_block_size
-from blksprs.utils.validation import validate_contiguous, validate_dimensions, validate_dtype_float, validate_device
+from blksprs.utils.validation import validate_contiguous, validate_dimensions, validate_device, \
+    validate_sparsity, validate_sparsity_block_size, validate_triton_block_size
 def row_wise_sum(x: Tensor, sparsity_layout: Tensor, sparsity_block_size: int,
                  flag_slice_only: bool = False, triton_block_size: int = None) -> tuple[Tensor, Tensor]:
-    """Computes the row-wise sum of a blocksparse tensor.
+    """Computes the row-wise sum of a block-sparse tensor.
-    Returns a blocksparse tensor with only one block per row, where the first entry is the sum of the corresponding row.
+    Returns a block-sparse tensor in compressed form with only one block per row, where the first entry contains the sum
+        of the corresponding row.
     Note:
-        If ``flag_slice_only`` is set the output will be of shape ``[batch_size, row_size, 1]``.
+        If ``flag_slice_only`` is set the output will be of shape ``[x.size(0), x.size(1), 1]``.
+    Args:
+        x (Tensor): A block-sparse tensor in compressed form.
+        sparsity_layout (Tensor): The sparsity layout of the block-sparse tensor.
+        sparsity_block_size (int): The size of the sparsity blocks.
+        flag_slice_only (bool, optional): If set the output will be of shape ``[x.size(0), x.size(1), 1]``
+            (default ``False``).
+        triton_block_size (int): The block size to use for the triton kernel (default ``None``).
+    Returns:
+        tuple[Tensor, Tensor]: A tuple containing a block-sparse tensor in compressed form containing the row-wise sum
+            of the input and the sparsity layout of the output tensor.
     """
     validate_dimensions(x)
     validate_contiguous(x)
-    validate_dtype_float(x)
     validate_device(x)
+    validate_sparsity(sparsity_block_size, (x, sparsity_layout))
+    validate_sparsity_block_size(sparsity_block_size, x)
+    validate_triton_block_size(triton_block_size, sparsity_block_size)
     sparsity_lut = torch.nonzero(sparsity_layout).contiguous()
     sparsity_layout_flat = sparsity_layout.reshape(-1)

blksprs/ops/softmax.py CHANGED Viewed

@@ -6,22 +6,37 @@ from triton import language as tl
 from blksprs.ops.exp import exp
 from blksprs.ops.row_wise_sum import row_wise_sum
 from blksprs.utils.tools import get_triton_block_size
-from blksprs.utils.validation import validate_contiguous, validate_dimensions, validate_dtype_float, validate_device
+from blksprs.utils.validation import validate_contiguous, validate_dimensions, validate_device, \
+    validate_sparsity, validate_sparsity_block_size, validate_triton_block_size
 def softmax(x: Tensor, sparsity_layout: Tensor, sparsity_block_size: int, triton_block_size: int = None) -> Tensor:
-    """Computes the softmax of a blocksparse tensor.
+    """Computes the softmax of a block-sparse tensor in compressed form.
     Note:
-        Sparse blocks are not considered for the calculation of the softmax, i.e., assumed to be ``-inf``.
+        Sparse blocks are not considered for the calculation of the softmax, i.e., all values are assumed to be ``-inf``.
+    Args:
+        x (Tensor): A block-sparse tensor in compressed form.
+        sparsity_layout (Tensor): The sparsity layout of the block-sparse tensor.
+        sparsity_block_size (int): The size of the sparsity blocks.
+        triton_block_size (int): The block size to use for the triton kernel (default ``None``).
+    Returns:
+        Tensor: The result of the softmax operation as a block-sparse tensor in compressed form.
     """
     validate_dimensions(x)
     validate_contiguous(x)
-    validate_dtype_float(x)
     validate_device(x)
-    max_val = torch.max(x).item()
+    validate_sparsity(sparsity_block_size, (x, sparsity_layout))
+    validate_sparsity_block_size(sparsity_block_size, x)
+    validate_triton_block_size(triton_block_size, sparsity_block_size)
+    if x.size(0) != 0:
+        max_val = torch.max(x).item()
+    else:
+        max_val = 0
     x_scaled = x - max_val
     sparsity_lut = torch.nonzero(sparsity_layout).contiguous()
@@ -83,9 +98,7 @@ class _BlocksparseSoftmax(torch.autograd.Function):
           triton_block_size))
         # Save for backward pass
-        ctx.save_for_backward(output)
-        ctx.sparsity_layout = sparsity_layout
-        ctx.sparsity_lut = sparsity_lut
+        ctx.save_for_backward(output, sparsity_layout, sparsity_lut)
         ctx.sparsity_block_size = sparsity_block_size
         ctx.triton_block_size = triton_block_size
@@ -93,9 +106,7 @@ class _BlocksparseSoftmax(torch.autograd.Function):
     @staticmethod
     def backward(ctx, grad_output):
-        o = ctx.saved_tensors[0]
-        sparsity_layout = ctx.sparsity_layout
-        sparsity_lut = ctx.sparsity_lut
+        o, sparsity_layout, sparsity_lut = ctx.saved_tensors
         sparsity_block_size = ctx.sparsity_block_size
         triton_block_size = ctx.triton_block_size

blksprs/ops/transpose.py CHANGED Viewed

@@ -1,26 +1,37 @@
-from typing import Any
 import torch
 import triton
-from triton import language as tl
 from torch import Tensor
+from triton import language as tl
 from blksprs.utils.tools import get_triton_block_size
-from blksprs.utils.validation import validate_dimensions, validate_contiguous, validate_dtype_float, validate_device
+from blksprs.utils.validation import validate_dimensions, validate_contiguous, validate_device, \
+    validate_sparsity, validate_sparsity_block_size, validate_triton_block_size
 def transpose(x: Tensor, sparsity_layout: Tensor, sparsity_block_size: int, triton_block_size: int = None) -> (
         Tensor, Tensor):
-    """Transposes a blocksparse tensor.
+    """Transposes a block-sparse tensor in compressed form.
     Note:
          Returns the transposed tensor and the sparsity layout of the transposed tensor.
+    Args:
+        x (Tensor): A block-sparse tensor in compressed form.
+        sparsity_layout (Tensor): The sparsity layout of the block-sparse tensor.
+        sparsity_block_size (int): The size of the sparsity blocks.
+        triton_block_size (int): The block size to use for the triton kernel (default ``None``).
+    Returns:
+        Tensor: The transposed block-sparse tensor in compressed form.
+        Tensor: The sparsity layout of the transposed tensor.
     """
     validate_dimensions(x)
     validate_contiguous(x)
-    validate_dtype_float(x)
     validate_device(x)
+    validate_sparsity(sparsity_block_size, (x, sparsity_layout))
+    validate_sparsity_block_size(sparsity_block_size, x)
+    validate_triton_block_size(triton_block_size, sparsity_block_size)
     sparsity_layout_t = sparsity_layout.transpose(-1, -2).contiguous()
@@ -75,6 +86,7 @@ class _BlocksparseTranspose(torch.autograd.Function):
           triton_block_size))
         # Save for backward pass
+        ctx.save_for_backward(sparsity_layout)
         ctx.sparsity_layout = sparsity_layout
         ctx.sparsity_block_size = sparsity_block_size
         ctx.triton_block_size = triton_block_size
@@ -83,7 +95,7 @@ class _BlocksparseTranspose(torch.autograd.Function):
     @staticmethod
     def backward(ctx, grad_output):
-        sparsity_layout = ctx.sparsity_layout
+        sparsity_layout = ctx.saved_tensors[0]
         sparsity_block_size = ctx.sparsity_block_size
         triton_block_size = ctx.triton_block_size

blksprs 1.0__py3-none-any.whl → 1.1__py3-none-any.whl

blksprs 1.0py3-none-any.whl → 1.1py3-none-any.whl