PyPI - blksprs - Versions diffs - 1.9__py3-none-any.whl → 1.9.2__py3-none-any.whl - Mend

blksprs 1.9py3-none-any.whl → 1.9.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

blksprs/__init__.py +4 -1
blksprs/ops/conversion.py +26 -34
blksprs/ops/distribution.py +1 -0
blksprs/ops/flow.py +147 -0
blksprs/ops/partitioning.py +3 -3
blksprs/ops/repeat.py +8 -147
blksprs/utils/layout_utils.py +17 -0
blksprs/utils/processing.py +35 -2
blksprs/utils/validation.py +2 -1
{blksprs-1.9.dist-info → blksprs-1.9.2.dist-info}/METADATA +12 -6
{blksprs-1.9.dist-info → blksprs-1.9.2.dist-info}/RECORD +13 -11
{blksprs-1.9.dist-info → blksprs-1.9.2.dist-info}/WHEEL +1 -1
{blksprs-1.9.dist-info → blksprs-1.9.2.dist-info}/top_level.txt +0 -0

blksprs/__init__.py CHANGED Viewed

@@ -1,5 +1,6 @@
 from blksprs.utils.blksprs_tensor import BlksprsTensor
 class ops:
     from blksprs.ops.conversion import to_dense, to_sparse, from_blksprs, to_blksprs, adapt_layout
     from blksprs.ops.distribution import gather, scatter, scatter_reduce
@@ -22,13 +23,15 @@ class layouting:
     from blksprs.layouting.distribution_layout import build_distribution_layout
     from blksprs.layouting.sparsity_layout import build_sparsity_layout, build_sparsity_layout_adaption, \
         build_sparsity_layout_matmul, build_sparsity_layout_matmul_fast
+    from blksprs.utils.layout_utils import build_full_sparsity_layout
     class experimental:
         from blksprs.ops.experimental.distribution_mdi import build_distribution_layout_mdi
 class utils:
-    from blksprs.utils.processing import apply_torch_linear
+    from blksprs.utils.processing import apply_torch_linear, apply_torch_normalisation, apply_torch_dropout, \
+        apply_function_applicable_row_wise
     from blksprs.utils.tools import do_shape_blocksparse, undo_shape_blocksparse
     from blksprs.utils.validation import disable_validation

blksprs/ops/conversion.py CHANGED Viewed

@@ -289,8 +289,8 @@ class _BlocksparseToSparse(torch.autograd.Function):
 def adapt_layout(x: BlksprsTensor, sparsity_layout_from: Tensor, sparsity_block_size_from: int,
-                 sparsity_block_size_to: int,
-                 preprocess_data: dict = None, triton_block_size: int = None) -> BlksprsTensor:
+                 sparsity_block_size_to: int, sparsity_layout_to: Tensor = None,
+                 triton_block_size: int = None) -> (BlksprsTensor, Tensor):
     """Adapts the sparsity layout of a block-sparse tensor, resulting in a new block-sparse tensor in compressed form
         conforming to the new sparsity layout (and sparsity block size) definition.
@@ -299,11 +299,12 @@ def adapt_layout(x: BlksprsTensor, sparsity_layout_from: Tensor, sparsity_block_
         sparsity_layout_from (Tensor): The sparsity layout of the input block-sparse tensor.
         sparsity_block_size_from (int): The size of the sparsity blocks of the input sparsity layout.
         sparsity_block_size_to (int): The size of the sparsity blocks of the output sparsity layout.
-        preprocess_data (dict): A dictionary containing data otherwise computed by the function (default ``None``).
+        sparsity_layout_to (Tensor): The sparsity layout of the output block-sparse tensor (default ``None``).
         triton_block_size (int): The block size to use for the triton kernel (default ``None``).
     Returns:
         BlksprsTensor: The block-sparse tensor in compressed form with the adapted sparsity layout and sparsity block size.
+        Tensor: The sparsity layout of the resulting output tensor.
     """
     x = x.contiguous()
@@ -317,52 +318,42 @@ def adapt_layout(x: BlksprsTensor, sparsity_layout_from: Tensor, sparsity_block_
     min_sparsity_block_size = min(sparsity_block_size_from, sparsity_block_size_to)
     validate_triton_block_size(triton_block_size, min_sparsity_block_size)
-    if preprocess_data is None:
-        preprocess_data = {}
+    sparsity_layout_from_flat = sparsity_layout_from.reshape(-1)
+    sparsity_reverse_lut_from = ((torch.cumsum(sparsity_layout_from_flat, dim=-1) - 1) *
+                                 (sparsity_layout_from_flat == 1) -
+                                 (1 * (sparsity_layout_from_flat == 0)))
-    if "sparsity_reverse_lut_from" not in preprocess_data:
-        sparsity_layout_from_flat = sparsity_layout_from.reshape(-1)
-        sparsity_reverse_lut_from = ((torch.cumsum(sparsity_layout_from_flat, dim=-1) - 1) *
-                                     (sparsity_layout_from_flat == 1) -
-                                     (1 * (sparsity_layout_from_flat == 0)))
-    else:
-        sparsity_reverse_lut_from = preprocess_data["sparsity_reverse_lut_from"]
-    if "sparsity_layout_to" not in preprocess_data:
+    if sparsity_layout_to is None:
         sparsity_layout_to = build_sparsity_layout_adaption(x, sparsity_layout_from,
                                                             sparsity_block_size_from, sparsity_block_size_to,
                                                             triton_block_size)
-    else:
-        sparsity_layout_to = preprocess_data["sparsity_layout_to"]
-    if "sparsity_lut_to" not in preprocess_data:
-        sparsity_lut_to = torch.nonzero(sparsity_layout_to).contiguous()
-    else:
-        sparsity_lut_to = preprocess_data["sparsity_lut_to"]
+    sparsity_lut_to = torch.nonzero(sparsity_layout_to).contiguous()
-    if "n_sparse_blocks_to" not in preprocess_data:
-        n_sparse_blocks_to = torch.sum(sparsity_layout_to.to(torch.int)).item()
-    else:
-        n_sparse_blocks_to = preprocess_data["n_sparse_blocks_to"]
+    n_sparse_blocks_to = torch.sum(sparsity_layout_to.to(torch.int)).item()
-    validate_contiguous(sparsity_layout_to, sparsity_reverse_lut_from, sparsity_lut_to)
+    validate_contiguous(sparsity_reverse_lut_from, sparsity_layout_to, sparsity_lut_to)
     if (sparsity_block_size_from == sparsity_block_size_to) and torch.equal(sparsity_layout_from, sparsity_layout_to):
-        return BlksprsTensor(x)
+        return BlksprsTensor(x), sparsity_layout_to
     return BlksprsTensor(_BlocksparseAdaptLayout.apply(x,
                                                        sparsity_layout_from, sparsity_reverse_lut_from,
                                                        sparsity_block_size_from,
-                                                       sparsity_layout_to, sparsity_lut_to, sparsity_block_size_to,
-                                                       n_sparse_blocks_to, min_sparsity_block_size, triton_block_size))
+                                                       sparsity_layout_to, sparsity_lut_to,
+                                                       sparsity_block_size_to,
+                                                       n_sparse_blocks_to, min_sparsity_block_size,
+                                                       triton_block_size)), sparsity_layout_to
 class _BlocksparseAdaptLayout(torch.autograd.Function):
     @staticmethod
     def forward(ctx, x: Tensor,
-                sparsity_layout_from: Tensor, sparsity_reverse_lut_from: Tensor, sparsity_block_size_from: int,
-                sparsity_layout_to: Tensor, sparsity_lut_to: Tensor, sparsity_block_size_to: int,
+                sparsity_layout_from: Tensor, sparsity_reverse_lut_from: Tensor,
+                sparsity_block_size_from: int,
+                sparsity_layout_to: Tensor, sparsity_lut_to: Tensor,
+                sparsity_block_size_to: int,
                 n_sparse_blocks_to: int, min_sparsity_block_size: int, triton_block_size: int) -> Tensor:
         output = torch.zeros(size=(n_sparse_blocks_to, sparsity_block_size_to, sparsity_block_size_to),
                              dtype=x.dtype, device=x.device)
@@ -409,9 +400,10 @@ class _BlocksparseAdaptLayout(torch.autograd.Function):
         sparsity_block_size_to = ctx.sparsity_block_size_to
         triton_block_size = ctx.triton_block_size
-        return adapt_layout(grad_output, sparsity_layout_to, sparsity_block_size_to, sparsity_block_size_from,
-                            preprocess_data={"sparsity_layout_to": sparsity_layout_from},
-                            triton_block_size=triton_block_size), None, None, None, None, None, None, None, None, None
+        return adapt_layout(
+            grad_output, sparsity_layout_to, sparsity_block_size_to, sparsity_block_size_from,
+            sparsity_layout_to=sparsity_layout_from,
+            triton_block_size=triton_block_size)[0], None, None, None, None, None, None, None, None, None
     @staticmethod
     @triton.jit
@@ -448,7 +440,7 @@ class _BlocksparseAdaptLayout(torch.autograd.Function):
         spa_row_x = (spa_row_o * sparsity_block_size_to + pid_row * TRITON_BLOCK_SIZE) // sparsity_block_size_from
         spa_col_x = (spa_col_o * sparsity_block_size_to + pid_col * TRITON_BLOCK_SIZE) // sparsity_block_size_from
-        # # Get reverse sparsity indices for x
+        # Get reverse sparsity indices for x
         rev_idx_spa_x_idx = (spa_bat_x * s_l_x_b_s +
                              spa_row_x * s_l_x_r_s +
                              spa_col_x * s_l_x_c_s)

blksprs/ops/distribution.py CHANGED Viewed

@@ -207,6 +207,7 @@ def scatter(src: BlksprsTensor, sparsity_layout_src: Tensor,
     """
     return scatter_reduce(src, sparsity_layout_src,
+                          dim,
                           idx,
                           sparsity_layout_tgt,
                           sparsity_block_size,

blksprs/ops/flow.py ADDED Viewed

@@ -0,0 +1,147 @@
+import torch
+import triton
+from torch import Tensor
+from triton import language as tl
+from blksprs.utils.tools import stride, get_triton_block_size
+@triton.jit
+def kernel_blocksparse_flow_pull(x,
+                                 x_b, x_b_s, x_r_s, x_c_s,
+                                 o,
+                                 o_b, o_b_s, o_r_s, o_c_s,
+                                 s_l_o_b, s_l_o_b_s, s_l_o_r_s, s_l_o_c_s,
+                                 s_lut, s_lut_r, s_lut_r_s, s_lut_c_s,
+                                 r_lut,
+                                 TRITON_BLOCK_SIZE: tl.constexpr) -> None:
+    # Get triton block indices
+    pid_blk = tl.program_id(axis=0)
+    pid_row = tl.program_id(axis=1)
+    pid_col = tl.program_id(axis=2)
+    # Get sparsity index of current output block consisting of its batch, row, and column index
+    spa_bat_idx = (pid_blk * s_lut_r_s + 0 * s_lut_c_s)
+    spa_bat_msk = (spa_bat_idx < s_lut_r * s_lut_r_s)
+    spa_bat = tl.load(s_lut + spa_bat_idx, mask=spa_bat_msk)
+    spa_row_idx = (pid_blk * s_lut_r_s + 1 * s_lut_c_s)
+    spa_row_msk = (spa_row_idx < s_lut_r * s_lut_r_s)
+    spa_row = tl.load(s_lut + spa_row_idx, mask=spa_row_msk)
+    spa_col_idx = (pid_blk * s_lut_r_s + 2 * s_lut_c_s)
+    spa_col_msk = (spa_col_idx < s_lut_r * s_lut_r_s)
+    spa_col = tl.load(s_lut + spa_col_idx, mask=spa_col_msk)
+    # Get reverse sparsity index
+    rev_idx_spa_idx = (spa_bat * s_l_o_b_s +
+                       spa_row * s_l_o_r_s +
+                       spa_col * s_l_o_c_s)
+    rev_idx_spa_msk = (rev_idx_spa_idx < s_l_o_b * s_l_o_b_s)
+    rev_idx_spa = tl.load(r_lut + rev_idx_spa_idx, mask=rev_idx_spa_msk).to(tl.int32)
+    if rev_idx_spa == -1:
+        tl.device_assert(False)
+        return
+    blk_x_idx = (rev_idx_spa * x_b_s +
+                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_r_s)[:, None] +
+                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_c_s)[None, :])
+    blk_x_msk = (blk_x_idx < x_b * x_b_s)
+    blk_x = tl.load(x + blk_x_idx, mask=blk_x_msk)
+    blk_o_idx = (pid_blk * o_b_s +
+                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_r_s)[:, None] +
+                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_c_s)[None, :])
+    blk_o_msk = (blk_o_idx < o_b * o_b_s)
+    tl.store(o + blk_o_idx, blk_x, mask=blk_o_msk)
+@triton.jit
+def kernel_blocksparse_flow_push(x,
+                                 x_b, x_b_s, x_r_s, x_c_s,
+                                 s_l_x_b, s_l_x_b_s, s_l_x_r_s, s_l_x_c_s,
+                                 s_lut, s_lut_r, s_lut_r_s, s_lut_c_s,
+                                 r_lut,
+                                 o,
+                                 o_b, o_b_s, o_r_s, o_c_s,
+                                 TRITON_BLOCK_SIZE: tl.constexpr) -> None:
+    # Get triton block indices
+    pid_blk = tl.program_id(axis=0)
+    pid_row = tl.program_id(axis=1)
+    pid_col = tl.program_id(axis=2)
+    # Get sparsity index of current input block consisting of its batch, row, and column index
+    spa_bat_idx = (pid_blk * s_lut_r_s + 0 * s_lut_c_s)
+    spa_bat_msk = (spa_bat_idx < s_lut_r * s_lut_r_s)
+    spa_bat = tl.load(s_lut + spa_bat_idx, mask=spa_bat_msk)
+    spa_row_idx = (pid_blk * s_lut_r_s + 1 * s_lut_c_s)
+    spa_row_msk = (spa_row_idx < s_lut_r * s_lut_r_s)
+    spa_row = tl.load(s_lut + spa_row_idx, mask=spa_row_msk)
+    spa_col_idx = (pid_blk * s_lut_r_s + 2 * s_lut_c_s)
+    spa_col_msk = (spa_col_idx < s_lut_r * s_lut_r_s)
+    spa_col = tl.load(s_lut + spa_col_idx, mask=spa_col_msk)
+    # Get reverse sparsity index
+    rev_idx_spa_idx = (spa_bat * s_l_x_b_s +
+                       spa_row * s_l_x_r_s +
+                       spa_col * s_l_x_c_s)
+    rev_idx_spa_msk = (rev_idx_spa_idx < s_l_x_b * s_l_x_b_s)
+    rev_idx_spa = tl.load(r_lut + rev_idx_spa_idx, mask=rev_idx_spa_msk).to(tl.int32)
+    if rev_idx_spa == -1:
+        tl.device_assert(False)
+        return
+    blk_x_idx = (pid_blk * x_b_s +
+                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_r_s)[:, None] +
+                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_c_s)[None, :])
+    blk_x_msk = (blk_x_idx < x_b * x_b_s)
+    blk_x = tl.load(x + blk_x_idx, mask=blk_x_msk)
+    blk_o_idx = (rev_idx_spa * o_b_s +
+                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_r_s)[:, None] +
+                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_c_s)[None, :])
+    blk_o_msk = (blk_o_idx < o_b * o_b_s)
+    tl.atomic_add(o + blk_o_idx, blk_x, mask=blk_o_msk)
+def flow_forward(ctx, x: Tensor, sparsity_layout_o: Tensor, sparsity_lut: Tensor, sparsity_reverse_lut: Tensor,
+                 sparsity_block_size: int, n_sparse_blocks: int, triton_block_size: int) -> Tensor:
+    output = torch.empty(size=(n_sparse_blocks, sparsity_block_size, sparsity_block_size),
+                         dtype=x.dtype, device=x.device)
+    output = torch.zeros_like(output)
+    x_b, x_r, x_c = x.size()
+    x_b_s, x_r_s, x_c_s = stride(x)
+    o_b, o_r, o_c = output.size()
+    o_b_s, o_r_s, o_c_s = stride(output)
+    s_l_o_b, s_l_o_r, s_l_o_c = sparsity_layout_o.size()
+    s_l_o_b_s, s_l_o_r_s, s_l_o_c_s = stride(sparsity_layout_o)
+    s_lut_r, s_lut_c = sparsity_lut.size()
+    s_lut_r_s, s_lut_c_s = stride(sparsity_lut)
+    if triton_block_size is None:
+        triton_block_size = get_triton_block_size(sparsity_block_size)
+    triton_grid = lambda meta: [o_b,
+                                triton.cdiv(o_r, meta["TRITON_BLOCK_SIZE"]),
+                                triton.cdiv(o_c, meta["TRITON_BLOCK_SIZE"])]
+    (kernel_blocksparse_flow_pull[triton_grid]
+     (x,
+      x_b, x_b_s, x_r_s, x_c_s,
+      output,
+      o_b, o_b_s, o_r_s, o_c_s,
+      s_l_o_b, s_l_o_b_s, s_l_o_r_s, s_l_o_c_s,
+      sparsity_lut, s_lut_r, s_lut_r_s, s_lut_c_s,
+      sparsity_reverse_lut,
+      triton_block_size))
+    # Save for backward pass
+    ctx.sparsity_block_size = sparsity_block_size
+    ctx.triton_block_size = triton_block_size
+    return output

blksprs/ops/partitioning.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import torch
 from torch import Tensor
-from blksprs.ops.repeat import forward_flow
+from blksprs.ops.flow import flow_forward
 from blksprs.utils.blksprs_tensor import BlksprsTensor
 from blksprs.utils.validation import validate_dimensions, validate_contiguous, validate_device, \
@@ -66,7 +66,7 @@ class _BlocksparseSplit(torch.autograd.Function):
         ctx.save_for_backward(sparsity_layout_o)
         ctx.num_partitions = num_partitions
-        return forward_flow(ctx, x, sparsity_layout_o, sparsity_lut, sparsity_reverse_lut, sparsity_block_size,
+        return flow_forward(ctx, x, sparsity_layout_o, sparsity_lut, sparsity_reverse_lut, sparsity_block_size,
                             n_sparse_blocks, triton_block_size)
     @staticmethod
@@ -140,7 +140,7 @@ class _BlocksparseMerge(torch.autograd.Function):
         ctx.save_for_backward(sparsity_layout_o)
         ctx.num_partitions = num_partitions
-        return forward_flow(ctx, x, sparsity_layout_o, sparsity_lut, sparsity_reverse_lut, sparsity_block_size,
+        return flow_forward(ctx, x, sparsity_layout_o, sparsity_lut, sparsity_reverse_lut, sparsity_block_size,
                             n_sparse_blocks, triton_block_size)
     @staticmethod

blksprs/ops/repeat.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import torch
 import triton
-from triton import language as tl
 from torch import Tensor
+from blksprs.ops.flow import kernel_blocksparse_flow_push, flow_forward
 from blksprs.utils.blksprs_tensor import BlksprsTensor
 from blksprs.utils.tools import get_triton_block_size, stride
 from blksprs.utils.validation import validate_dimensions, validate_contiguous, validate_device, \
@@ -64,8 +64,9 @@ def repeat(x: BlksprsTensor, sparsity_layout_x: Tensor, repeats: tuple[int, int,
     validate_contiguous(sparsity_layout_o, sparsity_lut, sparsity_reverse_lut)
-    return BlksprsTensor(_BlocksparseRepeat.apply(x, sparsity_layout_x, sparsity_layout_o, sparsity_lut, sparsity_reverse_lut,
-                                    sparsity_block_size, n_sparse_blocks, triton_block_size)), sparsity_layout_o
+    return BlksprsTensor(
+        _BlocksparseRepeat.apply(x, sparsity_layout_x, sparsity_layout_o, sparsity_lut, sparsity_reverse_lut,
+                                 sparsity_block_size, n_sparse_blocks, triton_block_size)), sparsity_layout_o
 def repeat_interleave(x: BlksprsTensor, sparsity_layout_x: Tensor, repeats: int,
@@ -122,8 +123,9 @@ def repeat_interleave(x: BlksprsTensor, sparsity_layout_x: Tensor, repeats: int,
     validate_contiguous(sparsity_layout_o, sparsity_lut, sparsity_reverse_lut)
-    return BlksprsTensor(_BlocksparseRepeat.apply(x, sparsity_layout_x, sparsity_layout_o, sparsity_lut, sparsity_reverse_lut,
-                                    sparsity_block_size, n_sparse_blocks, triton_block_size)), sparsity_layout_o
+    return BlksprsTensor(
+        _BlocksparseRepeat.apply(x, sparsity_layout_x, sparsity_layout_o, sparsity_lut, sparsity_reverse_lut,
+                                 sparsity_block_size, n_sparse_blocks, triton_block_size)), sparsity_layout_o
 class _BlocksparseRepeat(torch.autograd.Function):
@@ -137,7 +139,7 @@ class _BlocksparseRepeat(torch.autograd.Function):
         ctx.x_size = x.size()
         ctx.x_stride = stride(x)
-        return forward_flow(ctx, x, sparsity_layout_o, sparsity_lut, sparsity_reverse_lut, sparsity_block_size,
+        return flow_forward(ctx, x, sparsity_layout_o, sparsity_lut, sparsity_reverse_lut, sparsity_block_size,
                             n_sparse_blocks, triton_block_size)
     @staticmethod
@@ -180,144 +182,3 @@ class _BlocksparseRepeat(torch.autograd.Function):
           triton_block_size))
         return output, None, None, None, None, None, None, None
-@triton.jit
-def kernel_blocksparse_flow_pull(x,
-                                 x_b, x_b_s, x_r_s, x_c_s,
-                                 o,
-                                 o_b, o_b_s, o_r_s, o_c_s,
-                                 s_l_o_b, s_l_o_b_s, s_l_o_r_s, s_l_o_c_s,
-                                 s_lut, s_lut_r, s_lut_r_s, s_lut_c_s,
-                                 r_lut,
-                                 TRITON_BLOCK_SIZE: tl.constexpr) -> None:
-    # Get triton block indices
-    pid_blk = tl.program_id(axis=0)
-    pid_row = tl.program_id(axis=1)
-    pid_col = tl.program_id(axis=2)
-    # Get sparsity index of current output block consisting of its batch, row, and column index
-    spa_bat_idx = (pid_blk * s_lut_r_s + 0 * s_lut_c_s)
-    spa_bat_msk = (spa_bat_idx < s_lut_r * s_lut_r_s)
-    spa_bat = tl.load(s_lut + spa_bat_idx, mask=spa_bat_msk)
-    spa_row_idx = (pid_blk * s_lut_r_s + 1 * s_lut_c_s)
-    spa_row_msk = (spa_row_idx < s_lut_r * s_lut_r_s)
-    spa_row = tl.load(s_lut + spa_row_idx, mask=spa_row_msk)
-    spa_col_idx = (pid_blk * s_lut_r_s + 2 * s_lut_c_s)
-    spa_col_msk = (spa_col_idx < s_lut_r * s_lut_r_s)
-    spa_col = tl.load(s_lut + spa_col_idx, mask=spa_col_msk)
-    # Get reverse sparsity index
-    rev_idx_spa_idx = (spa_bat * s_l_o_b_s +
-                       spa_row * s_l_o_r_s +
-                       spa_col * s_l_o_c_s)
-    rev_idx_spa_msk = (rev_idx_spa_idx < s_l_o_b * s_l_o_b_s)
-    rev_idx_spa = tl.load(r_lut + rev_idx_spa_idx, mask=rev_idx_spa_msk).to(tl.int32)
-    if rev_idx_spa == -1:
-        tl.device_assert(False)
-        return
-    blk_x_idx = (rev_idx_spa * x_b_s +
-                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_r_s)[:, None] +
-                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_c_s)[None, :])
-    blk_x_msk = (blk_x_idx < x_b * x_b_s)
-    blk_x = tl.load(x + blk_x_idx, mask=blk_x_msk)
-    blk_o_idx = (pid_blk * o_b_s +
-                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_r_s)[:, None] +
-                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_c_s)[None, :])
-    blk_o_msk = (blk_o_idx < o_b * o_b_s)
-    tl.store(o + blk_o_idx, blk_x, mask=blk_o_msk)
-@triton.jit
-def kernel_blocksparse_flow_push(x,
-                                 x_b, x_b_s, x_r_s, x_c_s,
-                                 s_l_x_b, s_l_x_b_s, s_l_x_r_s, s_l_x_c_s,
-                                 s_lut, s_lut_r, s_lut_r_s, s_lut_c_s,
-                                 r_lut,
-                                 o,
-                                 o_b, o_b_s, o_r_s, o_c_s,
-                                 TRITON_BLOCK_SIZE: tl.constexpr) -> None:
-    # Get triton block indices
-    pid_blk = tl.program_id(axis=0)
-    pid_row = tl.program_id(axis=1)
-    pid_col = tl.program_id(axis=2)
-    # Get sparsity index of current input block consisting of its batch, row, and column index
-    spa_bat_idx = (pid_blk * s_lut_r_s + 0 * s_lut_c_s)
-    spa_bat_msk = (spa_bat_idx < s_lut_r * s_lut_r_s)
-    spa_bat = tl.load(s_lut + spa_bat_idx, mask=spa_bat_msk)
-    spa_row_idx = (pid_blk * s_lut_r_s + 1 * s_lut_c_s)
-    spa_row_msk = (spa_row_idx < s_lut_r * s_lut_r_s)
-    spa_row = tl.load(s_lut + spa_row_idx, mask=spa_row_msk)
-    spa_col_idx = (pid_blk * s_lut_r_s + 2 * s_lut_c_s)
-    spa_col_msk = (spa_col_idx < s_lut_r * s_lut_r_s)
-    spa_col = tl.load(s_lut + spa_col_idx, mask=spa_col_msk)
-    # Get reverse sparsity index
-    rev_idx_spa_idx = (spa_bat * s_l_x_b_s +
-                       spa_row * s_l_x_r_s +
-                       spa_col * s_l_x_c_s)
-    rev_idx_spa_msk = (rev_idx_spa_idx < s_l_x_b * s_l_x_b_s)
-    rev_idx_spa = tl.load(r_lut + rev_idx_spa_idx, mask=rev_idx_spa_msk).to(tl.int32)
-    if rev_idx_spa == -1:
-        tl.device_assert(False)
-        return
-    blk_x_idx = (pid_blk * x_b_s +
-                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_r_s)[:, None] +
-                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_c_s)[None, :])
-    blk_x_msk = (blk_x_idx < x_b * x_b_s)
-    blk_x = tl.load(x + blk_x_idx, mask=blk_x_msk)
-    blk_o_idx = (rev_idx_spa * o_b_s +
-                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_r_s)[:, None] +
-                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_c_s)[None, :])
-    blk_o_msk = (blk_o_idx < o_b * o_b_s)
-    tl.atomic_add(o + blk_o_idx, blk_x, mask=blk_o_msk)
-def forward_flow(ctx, x: Tensor, sparsity_layout_o: Tensor, sparsity_lut: Tensor, sparsity_reverse_lut: Tensor,
-                 sparsity_block_size: int, n_sparse_blocks: int, triton_block_size: int) -> Tensor:
-    output = torch.empty(size=(n_sparse_blocks, sparsity_block_size, sparsity_block_size),
-                         dtype=x.dtype, device=x.device)
-    output = torch.zeros_like(output)
-    x_b, x_r, x_c = x.size()
-    x_b_s, x_r_s, x_c_s = stride(x)
-    o_b, o_r, o_c = output.size()
-    o_b_s, o_r_s, o_c_s = stride(output)
-    s_l_o_b, s_l_o_r, s_l_o_c = sparsity_layout_o.size()
-    s_l_o_b_s, s_l_o_r_s, s_l_o_c_s = stride(sparsity_layout_o)
-    s_lut_r, s_lut_c = sparsity_lut.size()
-    s_lut_r_s, s_lut_c_s = stride(sparsity_lut)
-    if triton_block_size is None:
-        triton_block_size = get_triton_block_size(sparsity_block_size)
-    triton_grid = lambda meta: [o_b,
-                                triton.cdiv(o_r, meta["TRITON_BLOCK_SIZE"]),
-                                triton.cdiv(o_c, meta["TRITON_BLOCK_SIZE"])]
-    (kernel_blocksparse_flow_pull[triton_grid]
-     (x,
-      x_b, x_b_s, x_r_s, x_c_s,
-      output,
-      o_b, o_b_s, o_r_s, o_c_s,
-      s_l_o_b, s_l_o_b_s, s_l_o_r_s, s_l_o_c_s,
-      sparsity_lut, s_lut_r, s_lut_r_s, s_lut_c_s,
-      sparsity_reverse_lut,
-      triton_block_size))
-    # Save for backward pass
-    ctx.sparsity_block_size = sparsity_block_size
-    ctx.triton_block_size = triton_block_size
-    return output

blksprs/utils/layout_utils.py ADDED Viewed

@@ -0,0 +1,17 @@
+import math
+import torch
+import triton
+from torch import Tensor
+from torch.xpu import device
+from triton import language as tl
+from blksprs.utils.blksprs_tensor import BlksprsTensor
+from blksprs.utils.tools import get_triton_block_size, stride
+from blksprs.utils.validation import validate_triton_block_size, validate_dimensions, validate_device, \
+    validate_contiguous, validate_sparsity, validate_sparsity_block_size
+def build_full_sparsity_layout(x: Tensor, sparsity_block_size: int) -> Tensor:
+    return torch.ones(size=(x.size(0), x.size(1) // sparsity_block_size, x.size(2) // sparsity_block_size),
+                      dtype=torch.bool, device=x.device)

blksprs/utils/processing.py CHANGED Viewed

@@ -1,7 +1,9 @@
+from collections.abc import Callable
 import torch
 from torch import Tensor, nn
-from triton.language import dtype
+import blksprs as bs
 from blksprs.layouting.sparsity_layout import build_sparsity_layout_matmul_fast
 from blksprs.ops.conversion import to_sparse
 from blksprs.ops.matmul import matmul
@@ -10,7 +12,7 @@ from blksprs.utils.blksprs_tensor import BlksprsTensor
 def apply_torch_linear(x: BlksprsTensor, sparsity_layout: Tensor, sparsity_block_size: int,
-                       linear: nn.Linear) -> (BlksprsTensor, Tensor):
+                       linear: nn.Linear, bias: nn.Parameter = None) -> (BlksprsTensor, Tensor):
     # Extract weight and bias
     w = linear.weight
     b = linear.bias
@@ -27,6 +29,8 @@ def apply_torch_linear(x: BlksprsTensor, sparsity_layout: Tensor, sparsity_block
     interim = xw
     # Apply bias
+    if bias is not None:
+        b = bias
     if b is not None:
         b_slice = b.unsqueeze(0).unsqueeze(0).repeat(1, sparsity_block_size, 1)
         sparsity_layout_b_slice = torch.ones(size=(1, b_slice.size(1) // sparsity_block_size,
@@ -39,3 +43,32 @@ def apply_torch_linear(x: BlksprsTensor, sparsity_layout: Tensor, sparsity_block
         interim = interim + b_bs
     return interim, sparsity_layout_xw
+def apply_torch_normalisation(x: BlksprsTensor, sparsity_layout: Tensor, sparsity_block_size: int,
+                              normalisation: nn.Module) -> BlksprsTensor:
+    return apply_function_applicable_row_wise(x, sparsity_layout, sparsity_block_size, normalisation)
+def apply_torch_dropout(x: BlksprsTensor, sparsity_layout: Tensor, sparsity_block_size: int,
+                        dropout: nn.Dropout) -> BlksprsTensor:
+    return apply_function_applicable_row_wise(x, sparsity_layout, sparsity_block_size, dropout)
+def apply_function_applicable_row_wise(x: BlksprsTensor, sparsity_layout: Tensor, sparsity_block_size: int,
+                                       function: Callable) -> BlksprsTensor:
+    sparsity_layout_packed = _pack_layout(sparsity_layout)
+    blksprs_pseudo_dense = bs.ops.to_dense(x, sparsity_layout_packed, sparsity_block_size)
+    normalisation_out = function(blksprs_pseudo_dense)
+    blksprs_sparse = bs.ops.to_sparse(normalisation_out, sparsity_layout_packed, sparsity_block_size)
+    return blksprs_sparse
+def _pack_layout(sparsity_layout: Tensor) -> BlksprsTensor:
+    sparsity_layout_reshaped = sparsity_layout.reshape(1, sparsity_layout.size(0) * sparsity_layout.size(1),
+                                                       sparsity_layout.size(2))
+    non_zero_rows = torch.any(sparsity_layout_reshaped, dim=-1)
+    sparsity_layout_filtered = sparsity_layout_reshaped[non_zero_rows].unsqueeze(0)
+    return sparsity_layout_filtered

blksprs/utils/validation.py CHANGED Viewed

@@ -36,7 +36,8 @@ def validate_dtype_int(*tensors: Tensor) -> None:
         return
     for tensor in tensors:
-        if tensor.dtype != torch.int32 and tensor.dtype != torch.int64:
+        if (tensor.dtype !=
+                torch.int32 and tensor.dtype != torch.int64):
             raise ValueError("Tensor must have int32 or int64 dtype")

{blksprs-1.9.dist-info → blksprs-1.9.2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: blksprs
-Version: 1.9
+Version: 1.9.2
 Summary: A lightweight library for operations on blocksparse matrices in PyTorch.
 Author-email: Felix Schön <schoen@kr.tuwien.ac.at>
 Project-URL: Homepage, https://github.com/FelixSchoen/blksprs
@@ -8,14 +8,15 @@ Project-URL: Bugtracker, https://github.com/FelixSchoen/blksprs/issues
 Requires-Python: >=3.11
 Description-Content-Type: text/markdown
 Requires-Dist: torch
-Provides-Extra: build
-Requires-Dist: build; extra == "build"
+Requires-Dist: numpy
 Provides-Extra: test
 Requires-Dist: pytest; extra == "test"
 Requires-Dist: pytest-xdist; extra == "test"
 Requires-Dist: pytest-cov; extra == "test"
 Requires-Dist: coverage; extra == "test"
 Requires-Dist: matplotlib; extra == "test"
+Provides-Extra: build
+Requires-Dist: build; extra == "build"
 # blksprs
@@ -64,8 +65,12 @@ Further helpful operations (included in the ``bs.ops.misc`` module) that do **no
 - Row-wise sum, max, addition, and subtraction
 - Broadcast addition and subtraction between slices
-Furthermore, the library provides a set of utility functions for the creation of sparsity layouts based on existing
-dense tensors and for the scatter operation (module ``bs.layouting``), as well as utility functions to apply linear layers,
+Furthermore, the library provides a set of utility functions
+- for the creation of sparsity layouts based on existing
+dense tensors and for the scatter operation (module ``bs.layouting``),
+- for the application of ``nn.Linear``, ``nn.Dropout``, and ``nn.LayerNorm`` layers to block-sparse tensors,
+- as well as utility functions to apply linear layers,
 ensure correct input dimensionality, and validate input (module ``bs.utils``).
 ## Installation
@@ -79,7 +84,8 @@ We recommend installing blksprs from [PyPI](https://pypi.org/project/blksprs/) u
 ### Dependencies
-- [PyTorch](https://pytorch.org/) (built with v2.5.0)
+- [PyTorch](https://pytorch.org/) (built with v2.5.1)
+- _[NumPy](https://numpy.org/) (to get rid of warnings, built with v2.2.0)_
 - _[Triton](https://github.com/triton-lang/triton) (included with PyTorch)_
 ## Changelog

{blksprs-1.9.dist-info → blksprs-1.9.2.dist-info}/RECORD RENAMED Viewed

@@ -1,11 +1,12 @@
-blksprs/__init__.py,sha256=YMrERuEf1hTv5vVdOvPEzh9rESn4uqOB7WHB12Qs5lU,1836
+blksprs/__init__.py,sha256=L2wP3sFBjfcIOuI2WhQW1eUEYuKoZLKxSV9z0aQmknM,2001
 blksprs/layouting/distribution_layout.py,sha256=9f_Bx2YQF4LTH95C0S7OuB9eeOuh73NcE0Z7Wrtug38,5034
 blksprs/layouting/sparsity_layout.py,sha256=-sScIn4hhG35j9BXytrojEzp8jnFkMargJjtivPV1fc,9755
-blksprs/ops/conversion.py,sha256=ol-iV45wDzp9G1dJEkY53EdrvnmHzcl7QQmPJ-xqQTs,22410
-blksprs/ops/distribution.py,sha256=OWTH_dfO43uIMY6S44wpvRoIBuKzaTy1f57BOEf7EYA,19925
+blksprs/ops/conversion.py,sha256=2lQZfPd1iFheXIcoH0LbN2m7vqFRQ8XUzhGFlDckBsM,22052
+blksprs/ops/distribution.py,sha256=JGa-eLY-1OgicU3vPAwuhqsoUIeyadzmTk2t25aYyak,19956
+blksprs/ops/flow.py,sha256=RBXNOA6O0Ay2sotH8uNoltZywkdxJocJCn3bfB1fGjM,6185
 blksprs/ops/matmul.py,sha256=yh2ZnO0ZltT1AgadiFP0vX28YJ4n74xO-I_5vFUmOmA,11452
-blksprs/ops/partitioning.py,sha256=K0ExR2a3W62d_9xxCJzsdJDLgtbxTI6P8loOOBdhPzE,7674
-blksprs/ops/repeat.py,sha256=IvSIRbuyFn0b57LObymLgup0LqlWQ3ndIw-QuiYQcaU,14564
+blksprs/ops/partitioning.py,sha256=z7kx4FrC-ugxZP-IsOHCfdbsF__ld0P-vDota5CbU4s,7672
+blksprs/ops/repeat.py,sha256=RCa-dITomA5v12K5Oxa5_ReA361zS7WHPNNHxSp9PGw,8578
 blksprs/ops/softmax.py,sha256=V-1vqRefjjwSp6JPwKxVxh5pTng9gOdtgGlXHDPbpYM,12190
 blksprs/ops/transpose.py,sha256=jxzFFffrj4S_9tiCrwwUMdz6EA98o1dziWXjlqb64a4,6859
 blksprs/ops/experimental/distribution_mdi.py,sha256=F_0tl4Gn-9JZs_TZfDtZqO_RPFl7sejqQNF8UNIoCbs,20533
@@ -14,10 +15,11 @@ blksprs/ops/misc/exp.py,sha256=FnSFosBfJHuiEbD0MD-i4axLghRn4a0f8KvHXrKBB6M,3802
 blksprs/ops/misc/row_wise.py,sha256=U4Kk0-P4oOuMNjMHXxP2gP9njMIeMfz8RZrzItNIF94,17229
 blksprs/utils/benchmarking.py,sha256=4pLVlnPW_2EM-NT3n4SClaRznVYEljztLbJcccz8kZE,1360
 blksprs/utils/blksprs_tensor.py,sha256=VjplBgDhnf9sxf-1R5feA0xp5FDCDdaeZmCeoIRdCnc,151
-blksprs/utils/processing.py,sha256=hYsFxEbQKcbqU4WtZWusPnWMHg8ZAZF1SKZJYjez9aU,2060
+blksprs/utils/layout_utils.py,sha256=49ZdPS_gMn_IrWty3FARbi2rda5a8g5DmAEL8LOrC30,670
+blksprs/utils/processing.py,sha256=WLuMJQ8v-YovXwcDjhlDn3N31WMZXrtyeeyKSgq_zn4,3642
 blksprs/utils/tools.py,sha256=r7Y4C37vfSWUyQTGwa8NyRqgovmsq9hMufkenqYHOxo,539
-blksprs/utils/validation.py,sha256=IZxH2HZpePmv7lRqLsSwV_6FwsdnTXv9q4j98vCMSsQ,4195
-blksprs-1.9.dist-info/METADATA,sha256=9mMjmvJ2_Rz0uyiY9S8SKTRcs6YW5Jk1w6PRobh6Q3c,8456
-blksprs-1.9.dist-info/WHEEL,sha256=P9jw-gEje8ByB7_hXoICnHtVCrEwMQh-630tKvQWehc,91
-blksprs-1.9.dist-info/top_level.txt,sha256=qyp0IHeY3H2GQA97i4hk_To5rRBS2YcE1HRPSLy04fk,8
-blksprs-1.9.dist-info/RECORD,,
+blksprs/utils/validation.py,sha256=CbxBbeQWJo8wox5eMoVzaTlP9FVBwt3-gxUOmi3EUgw,4213
+blksprs-1.9.2.dist-info/METADATA,sha256=JIHA58YnLfFrUyAOsPmHMWbDz_XmkDiXypLhg1ijO0E,8670
+blksprs-1.9.2.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
+blksprs-1.9.2.dist-info/top_level.txt,sha256=qyp0IHeY3H2GQA97i4hk_To5rRBS2YcE1HRPSLy04fk,8
+blksprs-1.9.2.dist-info/RECORD,,

{blksprs-1.9.dist-info → blksprs-1.9.2.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: setuptools (75.3.0)
+Generator: setuptools (75.6.0)
 Root-Is-Purelib: true
 Tag: py3-none-any

{blksprs-1.9.dist-info → blksprs-1.9.2.dist-info}/top_level.txt RENAMED Viewed

File without changes

blksprs 1.9__py3-none-any.whl → 1.9.2__py3-none-any.whl

blksprs 1.9py3-none-any.whl → 1.9.2py3-none-any.whl