PyPI - blksprs - Versions diffs - 1.10.2__py3-none-any.whl → 1.11__py3-none-any.whl - Mend

blksprs 1.10.2py3-none-any.whl → 1.11py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

blksprs/__init__.py +0 -1
blksprs/ops/conversion.py +42 -15
blksprs/ops/distribution.py +60 -30
blksprs/ops/flow.py +63 -30
blksprs/ops/matmul.py +40 -22
blksprs/ops/partitioning.py +102 -59
blksprs/ops/repeat.py +88 -76
blksprs/ops/softmax.py +71 -63
blksprs/ops/transpose.py +38 -101
{blksprs-1.10.2.dist-info → blksprs-1.11.dist-info}/METADATA +2 -2
blksprs-1.11.dist-info/RECORD +23 -0
{blksprs-1.10.2.dist-info → blksprs-1.11.dist-info}/WHEEL +1 -1
blksprs/ops/misc/exp.py +0 -104
blksprs-1.10.2.dist-info/RECORD +0 -24
{blksprs-1.10.2.dist-info → blksprs-1.11.dist-info}/top_level.txt +0 -0

blksprs/__init__.py CHANGED Viewed

@@ -13,7 +13,6 @@ class ops:
     class misc:
         from blksprs.ops.misc.row_wise import row_wise_sum, row_wise_max, row_wise_add, row_wise_sub
         from blksprs.ops.misc.broadcast_ops import broadcast_add, broadcast_sub
-        from blksprs.ops.misc.exp import exp
 class layouting:

blksprs/ops/conversion.py CHANGED Viewed

@@ -19,7 +19,7 @@ def from_blksprs(x: BlksprsTensor, sparsity_layout: Tensor, sparsity_block_size:
 def to_dense(x: BlksprsTensor, sparsity_layout: Tensor, sparsity_block_size: int, fill_value: float = 0,
-             triton_block_size: int = None) -> Tensor:
+             triton_block_size: int = None, lut: dict = None) -> Tensor:
     """Converts a block-sparse tensor in compressed form to a block-sparse tensor in regular form based on the given
         sparsity layout.
@@ -30,6 +30,7 @@ def to_dense(x: BlksprsTensor, sparsity_layout: Tensor, sparsity_block_size: int
         fill_value (float): The value to fill the resulting dense tensor with where the block-sparse tensor is not
             present (default ``0``).
         triton_block_size (int): The block size to use for the triton kernel (default ``None``).
+        lut (dict, optional): A dictionary containing the look-up tables for the operation (default ``None``).
     Returns:
         Tensor: The block-sparse tensor converted to regular form.
@@ -44,24 +45,35 @@ def to_dense(x: BlksprsTensor, sparsity_layout: Tensor, sparsity_block_size: int
     validate_sparsity_block_size(sparsity_block_size, x)
     validate_triton_block_size(triton_block_size, sparsity_block_size)
-    sparsity_layout_flat = sparsity_layout.reshape(-1)
-    sparsity_reverse_lut = ((torch.cumsum(sparsity_layout_flat, dim=-1) - 1) *
-                            (sparsity_layout_flat == 1) -
-                            (1 * (sparsity_layout_flat == 0)))
-    validate_contiguous(sparsity_reverse_lut)
+    lut = _BlocksparseToDense.build_lut(lut, sparsity_layout)
     if sparsity_layout.size(1) == 1 and sparsity_layout.size(2) == 1 and torch.all(sparsity_layout):
         return x
     return _BlocksparseToDense.apply(x,
-                                     sparsity_layout, sparsity_reverse_lut,
+                                     sparsity_layout, lut["sparsity_reverse_lut"],
                                      sparsity_block_size, fill_value,
                                      triton_block_size)
 class _BlocksparseToDense(torch.autograd.Function):
+    @staticmethod
+    def build_lut(lut: dict, sparsity_layout: Tensor):
+        if lut is None:
+            lut = dict()
+        if "sparsity_reverse_lut" not in lut:
+            sparsity_layout_flat = sparsity_layout.reshape(-1)
+            sparsity_reverse_lut = ((torch.cumsum(sparsity_layout_flat, dim=-1) - 1) *
+                                    (sparsity_layout_flat == 1) -
+                                    (1 * (sparsity_layout_flat == 0)))
+            lut["sparsity_reverse_lut"] = sparsity_reverse_lut
+        validate_contiguous(lut["sparsity_reverse_lut"])
+        return lut
     @staticmethod
     def forward(ctx, x: Tensor,
                 sparsity_layout: Tensor, sparsity_reverse_lut: Tensor,
@@ -160,7 +172,7 @@ def to_blksprs(x: Tensor, sparsity_layout: Tensor, sparsity_block_size: int,
 def to_sparse(x: Tensor, sparsity_layout: Tensor, sparsity_block_size: int,
-              triton_block_size: int = None) -> BlksprsTensor:
+              triton_block_size: int = None, lut: dict = None) -> BlksprsTensor:
     """Converts a block-sparse tensor in regular form to a block-sparse tensor in compressed form based on the given
     sparsity layout.
@@ -169,6 +181,7 @@ def to_sparse(x: Tensor, sparsity_layout: Tensor, sparsity_block_size: int,
         sparsity_layout (Tensor): The sparsity layout of the block-sparse tensor.
         sparsity_block_size (int): The size of the sparsity blocks.
         triton_block_size (int): The block size to use for the triton kernel (default ``None``).
+        lut (dict, optional): A dictionary containing the look-up tables for the operation (default ``None``).
     Returns:
         BlksprsTensor: The block-sparse tensor converted to compressed form.
@@ -183,22 +196,36 @@ def to_sparse(x: Tensor, sparsity_layout: Tensor, sparsity_block_size: int,
     validate_sparsity_block_size(sparsity_block_size, x)
     validate_triton_block_size(triton_block_size, sparsity_block_size)
-    sparsity_lut = torch.nonzero(sparsity_layout).contiguous()
-    n_sparse_blocks = torch.sum(sparsity_layout.to(torch.int)).item()
-    validate_contiguous(sparsity_layout, sparsity_lut)
+    lut = _BlocksparseToSparse.build_lut(lut, sparsity_layout)
     if sparsity_layout.size(1) == 1 and sparsity_layout.size(2) == 1 and torch.all(sparsity_layout):
         return BlksprsTensor(x)
     return BlksprsTensor(_BlocksparseToSparse.apply(x,
-                                                    sparsity_layout, sparsity_lut,
-                                                    sparsity_block_size, n_sparse_blocks,
+                                                    sparsity_layout, lut["sparsity_lut"],
+                                                    sparsity_block_size, lut["n_sparse_blocks"],
                                                     triton_block_size))
 class _BlocksparseToSparse(torch.autograd.Function):
+    @staticmethod
+    def build_lut(lut: dict, sparsity_layout: Tensor):
+        if lut is None:
+            lut = dict()
+        if "sparsity_lut" not in lut:
+            sparsity_lut = torch.nonzero(sparsity_layout).contiguous()
+            lut["sparsity_lut"] = sparsity_lut
+        if "n_sparse_blocks" not in lut:
+            n_sparse_blocks = torch.sum(sparsity_layout.to(torch.int)).item()
+            lut["n_sparse_blocks"] = n_sparse_blocks
+        validate_contiguous(sparsity_layout, lut["sparsity_lut"])
+        return lut
     @staticmethod
     def forward(ctx, x: Tensor,
                 sparsity_layout: Tensor, sparsity_lut: Tensor,

blksprs/ops/distribution.py CHANGED Viewed

@@ -13,7 +13,7 @@ from blksprs.utils.validation import validate_contiguous, validate_dimensions, v
 def gather(src: BlksprsTensor, sparsity_layout_src: Tensor,
            dim: int,
            idx: BlksprsTensor, sparsity_layout_idx: Tensor,
-           sparsity_block_size: int, triton_block_size: int = None) -> BlksprsTensor:
+           sparsity_block_size: int, triton_block_size: int = None, lut: dict = None) -> BlksprsTensor:
     """Applies a gather operation on a block-sparse tensor in compressed form.
     Args:
@@ -24,6 +24,7 @@ def gather(src: BlksprsTensor, sparsity_layout_src: Tensor,
         sparsity_layout_idx (Tensor): The sparsity layout of the indices block-sparse tensor.
         sparsity_block_size (int): The size of the sparsity blocks.
         triton_block_size (int, optional): The block size to use for the triton kernel (default ``None``).
+        lut (dict, optional): A dictionary containing the look-up tables for the operation (default ``None``).
     Returns:
         BlksprsTensor: The result of the gather operation as a block-sparse tensor in compressed form.
@@ -40,25 +41,38 @@ def gather(src: BlksprsTensor, sparsity_layout_src: Tensor,
     validate_sparsity_block_size(sparsity_block_size, src, idx)
     validate_triton_block_size(triton_block_size, sparsity_block_size)
-    sparsity_layout_x_flat = sparsity_layout_src.reshape(-1)
-    sparsity_reverse_lut_x = ((torch.cumsum(sparsity_layout_x_flat, dim=-1) - 1) *
-                              (sparsity_layout_x_flat == 1) -
-                              (1 * (sparsity_layout_x_flat == 0)))
-    sparsity_lut_i = torch.nonzero(sparsity_layout_idx).contiguous()
-    validate_contiguous(sparsity_layout_src, sparsity_reverse_lut_x,
-                        sparsity_layout_idx, sparsity_lut_i)
     adjusted_dim = dim % 3
-    return BlksprsTensor(_BlocksparseGather.apply(src, sparsity_layout_src, sparsity_reverse_lut_x,
-                                                  adjusted_dim, idx, sparsity_layout_idx, sparsity_lut_i,
+    lut = _BlocksparseGather.build_lut(lut, sparsity_layout_src, sparsity_layout_idx)
+    return BlksprsTensor(_BlocksparseGather.apply(src, sparsity_layout_src, lut["sparsity_reverse_lut_x"],
+                                                  adjusted_dim, idx, sparsity_layout_idx, lut["sparsity_lut_i"],
                                                   sparsity_block_size, triton_block_size))
 class _BlocksparseGather(torch.autograd.Function):
+    @staticmethod
+    def build_lut(lut: dict, sparsity_layout_src: Tensor, sparsity_layout_idx: Tensor):
+        if lut is None:
+            lut = dict()
+        if "sparsity_reverse_lut_x" not in lut:
+            sparsity_layout_x_flat = sparsity_layout_src.reshape(-1)
+            sparsity_reverse_lut_x = ((torch.cumsum(sparsity_layout_x_flat, dim=-1) - 1) *
+                                      (sparsity_layout_x_flat == 1) -
+                                      (1 * (sparsity_layout_x_flat == 0)))
+            lut["sparsity_reverse_lut_x"] = sparsity_reverse_lut_x
+        if "sparsity_lut_i" not in lut:
+            sparsity_lut_i = torch.nonzero(sparsity_layout_idx).contiguous()
+            lut["sparsity_lut_i"] = sparsity_lut_i
+        validate_contiguous(sparsity_layout_src, lut["sparsity_reverse_lut_x"],
+                            sparsity_layout_idx, lut["sparsity_lut_i"])
+        return lut
     @staticmethod
     def forward(ctx, x: Tensor, sparsity_layout_x: Tensor, sparsity_reverse_lut_x: Tensor,
                 dim: int, i: Tensor, sparsity_layout_i: Tensor, sparsity_lut_i: Tensor,
@@ -202,7 +216,7 @@ def scatter(src: BlksprsTensor, sparsity_layout_src: Tensor,
             dim: int,
             idx: BlksprsTensor,
             sparsity_layout_tgt: Tensor,
-            sparsity_block_size: int, triton_block_size: int = None) -> BlksprsTensor:
+            sparsity_block_size: int, triton_block_size: int = None, lut: dict = None) -> BlksprsTensor:
     """Wrapper for ``scatter_reduce`` with ``reduce_op="none"``.
     """
@@ -219,7 +233,7 @@ def scatter_reduce(src: BlksprsTensor, sparsity_layout_src: Tensor,
                    idx: BlksprsTensor,
                    sparsity_layout_tgt: Tensor,
                    sparsity_block_size: int,
-                   reduce_op: str = "sum", triton_block_size: int = None) -> BlksprsTensor:
+                   reduce_op: str = "sum", triton_block_size: int = None, lut: dict = None) -> BlksprsTensor:
     """Applies a scatter operation on a block-sparse tensor in compressed form.
     Args:
@@ -232,6 +246,7 @@ def scatter_reduce(src: BlksprsTensor, sparsity_layout_src: Tensor,
         reduce_op (str, optional): The reduction operation to apply during the scatter operation (default ``"sum"``).
             Supported operations are ``"none"`` and ``"sum"``.
         triton_block_size (int, optional): The block size to use for the triton kernel (default ``None``).
+        lut (dict, optional): A dictionary containing the look-up tables for the operation (default ``None``).
     Returns:
         BlksprsTensor: The result of the scatter operation as a block-sparse tensor in compressed form.
@@ -251,29 +266,44 @@ def scatter_reduce(src: BlksprsTensor, sparsity_layout_src: Tensor,
     if reduce_op not in ["none", "sum"]:
         raise ValueError(f"Reduction operation '{reduce_op}' is not supported")
-    sparsity_lut_x = torch.nonzero(sparsity_layout_src).contiguous()
-    sparsity_layout_o_flat = sparsity_layout_tgt.reshape(-1)
-    sparsity_reverse_lut_o = ((torch.cumsum(sparsity_layout_o_flat, dim=-1) - 1) *
-                              (sparsity_layout_o_flat == 1) -
-                              (1 * (sparsity_layout_o_flat == 0)))
-    n_sparse_blocks = torch.sum(sparsity_layout_tgt.to(torch.int)).item()
-    validate_contiguous(sparsity_layout_src, sparsity_lut_x,
-                        sparsity_layout_tgt, sparsity_reverse_lut_o)
     adjusted_dim = dim % 3
-    return BlksprsTensor(_BlocksparseScatterReduce.apply(src, sparsity_layout_src, sparsity_lut_x,
+    lut = _BlocksparseScatterReduce.build_lut(lut, sparsity_layout_src, sparsity_layout_tgt)
+    return BlksprsTensor(_BlocksparseScatterReduce.apply(src, sparsity_layout_src, lut["sparsity_lut_x"],
                                                          adjusted_dim, idx,
-                                                         sparsity_layout_tgt, sparsity_reverse_lut_o,
-                                                         sparsity_block_size, n_sparse_blocks,
+                                                         sparsity_layout_tgt, lut["sparsity_reverse_lut_o"],
+                                                         sparsity_block_size, lut["n_sparse_blocks"],
                                                          reduce_op, triton_block_size))
 class _BlocksparseScatterReduce(torch.autograd.Function):
+    @staticmethod
+    def build_lut(lut: dict, sparsity_layout_src: Tensor, sparsity_layout_tgt: Tensor):
+        if lut is None:
+            lut = dict()
+        if "sparsity_lut_x" not in lut:
+            sparsity_lut_x = torch.nonzero(sparsity_layout_src).contiguous()
+            lut["sparsity_lut_x"] = sparsity_lut_x
+        if "sparsity_reverse_lut_o" not in lut:
+            sparsity_layout_o_flat = sparsity_layout_tgt.reshape(-1)
+            sparsity_reverse_lut_o = ((torch.cumsum(sparsity_layout_o_flat, dim=-1) - 1) *
+                                      (sparsity_layout_o_flat == 1) -
+                                      (1 * (sparsity_layout_o_flat == 0)))
+            lut["sparsity_reverse_lut_o"] = sparsity_reverse_lut_o
+        if "n_sparse_blocks" not in lut:
+            n_sparse_blocks = torch.sum(sparsity_layout_tgt.to(torch.int)).item()
+            lut["n_sparse_blocks"] = n_sparse_blocks
+        validate_contiguous(sparsity_layout_src, lut["sparsity_lut_x"],
+                            sparsity_layout_tgt, lut["sparsity_reverse_lut_o"])
+        return lut
     @staticmethod
     def forward(ctx, x: Tensor, sparsity_layout_x: Tensor, sparsity_lut_x: Tensor,
                 dim: int, i: Tensor,

blksprs/ops/flow.py CHANGED Viewed

@@ -40,21 +40,18 @@ def kernel_blocksparse_flow_pull(x,
     rev_idx_spa_msk = (rev_idx_spa_idx >= 0 and rev_idx_spa_idx < s_l_o_b * s_l_o_b_s)
     rev_idx_spa = tl.load(r_lut + rev_idx_spa_idx, mask=rev_idx_spa_msk).to(tl.int32)
-    if rev_idx_spa == -1:
-        tl.device_assert(False)
-        return
+    if rev_idx_spa >= 0:
+        blk_x_idx = (rev_idx_spa * x_b_s +
+                     ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_r_s)[:, None] +
+                     ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_c_s)[None, :])
+        blk_x_msk = (blk_x_idx >= 0 and blk_x_idx < x_b * x_b_s)
+        blk_x = tl.load(x + blk_x_idx, mask=blk_x_msk)
-    blk_x_idx = (rev_idx_spa * x_b_s +
-                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_r_s)[:, None] +
-                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_c_s)[None, :])
-    blk_x_msk = (blk_x_idx >= 0 and blk_x_idx < x_b * x_b_s)
-    blk_x = tl.load(x + blk_x_idx, mask=blk_x_msk)
-    blk_o_idx = (pid_blk * o_b_s +
-                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_r_s)[:, None] +
-                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_c_s)[None, :])
-    blk_o_msk = (blk_o_idx >= 0 and blk_o_idx < o_b * o_b_s)
-    tl.store(o + blk_o_idx, blk_x, mask=blk_o_msk)
+        blk_o_idx = (pid_blk * o_b_s +
+                     ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_r_s)[:, None] +
+                     ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_c_s)[None, :])
+        blk_o_msk = (blk_o_idx >= 0 and blk_o_idx < o_b * o_b_s)
+        tl.store(o + blk_o_idx, blk_x, mask=blk_o_msk)
 @triton.jit
@@ -91,25 +88,22 @@ def kernel_blocksparse_flow_push(x,
     rev_idx_spa_msk = (rev_idx_spa_idx >= 0 and rev_idx_spa_idx < s_l_x_b * s_l_x_b_s)
     rev_idx_spa = tl.load(r_lut + rev_idx_spa_idx, mask=rev_idx_spa_msk).to(tl.int32)
-    if rev_idx_spa == -1:
-        tl.device_assert(False)
-        return
-    blk_x_idx = (pid_blk * x_b_s +
-                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_r_s)[:, None] +
-                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_c_s)[None, :])
-    blk_x_msk = (blk_x_idx >= 0 and blk_x_idx < x_b * x_b_s)
-    blk_x = tl.load(x + blk_x_idx, mask=blk_x_msk)
+    if rev_idx_spa >= 0:
+        blk_x_idx = (pid_blk * x_b_s +
+                     ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_r_s)[:, None] +
+                     ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * x_c_s)[None, :])
+        blk_x_msk = (blk_x_idx >= 0 and blk_x_idx < x_b * x_b_s)
+        blk_x = tl.load(x + blk_x_idx, mask=blk_x_msk)
-    blk_o_idx = (rev_idx_spa * o_b_s +
-                 ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_r_s)[:, None] +
-                 ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_c_s)[None, :])
-    blk_o_msk = (blk_o_idx >= 0 and blk_o_idx < o_b * o_b_s)
-    tl.atomic_add(o + blk_o_idx, blk_x, mask=blk_o_msk)
+        blk_o_idx = (rev_idx_spa * o_b_s +
+                     ((pid_row * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_r_s)[:, None] +
+                     ((pid_col * TRITON_BLOCK_SIZE + tl.arange(0, TRITON_BLOCK_SIZE)) * o_c_s)[None, :])
+        blk_o_msk = (blk_o_idx >= 0 and blk_o_idx < o_b * o_b_s)
+        tl.atomic_add(o + blk_o_idx, blk_x, mask=blk_o_msk)
-def flow_forward(ctx, x: Tensor, sparsity_layout_o: Tensor, sparsity_lut: Tensor, sparsity_reverse_lut: Tensor,
-                 sparsity_block_size: int, n_sparse_blocks: int, triton_block_size: int) -> Tensor:
+def flow_forward_pull(ctx, x: Tensor, sparsity_layout_o: Tensor, sparsity_lut: Tensor, sparsity_reverse_lut: Tensor,
+                      sparsity_block_size: int, n_sparse_blocks: int, triton_block_size: int) -> Tensor:
     output = torch.empty(size=(n_sparse_blocks, sparsity_block_size, sparsity_block_size),
                          dtype=x.dtype, device=x.device)
@@ -144,3 +138,42 @@ def flow_forward(ctx, x: Tensor, sparsity_layout_o: Tensor, sparsity_lut: Tensor
     ctx.triton_block_size = triton_block_size
     return output
+def flow_forward_push(ctx, x: Tensor, sparsity_layout_x: Tensor, sparsity_lut: Tensor, sparsity_reverse_lut: Tensor,
+                      sparsity_block_size: int, n_sparse_blocks: int, triton_block_size: int) -> Tensor:
+    output = torch.zeros(size=(n_sparse_blocks, sparsity_block_size, sparsity_block_size),
+                         dtype=x.dtype, device=x.device)
+    x_b, x_r, x_c = x.size()
+    x_b_s, x_r_s, x_c_s = stride(x)
+    s_l_x_b, s_l_x_r, s_l_x_c = sparsity_layout_x.size()
+    s_l_x_b_s, s_l_x_r_s, s_l_x_c_s = stride(sparsity_layout_x)
+    s_lut_r, s_lut_c = sparsity_lut.size()
+    s_lut_r_s, s_lut_c_s = stride(sparsity_lut)
+    o_b, o_r, o_c = output.size()
+    o_b_s, o_r_s, o_c_s = stride(output)
+    if triton_block_size is None:
+        triton_block_size = get_triton_block_size(sparsity_block_size)
+    triton_grid = lambda meta: [x_b,
+                                triton.cdiv(x_r, meta["TRITON_BLOCK_SIZE"]),
+                                triton.cdiv(x_c, meta["TRITON_BLOCK_SIZE"])]
+    (kernel_blocksparse_flow_push[triton_grid]
+     (x,
+      x_b, x_b_s, x_r_s, x_c_s,
+      s_l_x_b, s_l_x_b_s, s_l_x_r_s, s_l_x_c_s,
+      sparsity_lut, s_lut_r, s_lut_r_s, s_lut_c_s,
+      sparsity_reverse_lut,
+      output,
+      o_b, o_b_s, o_r_s, o_c_s,
+      triton_block_size))
+    # Save for backward pass
+    if ctx is not None:
+        ctx.sparsity_block_size = sparsity_block_size
+        ctx.triton_block_size = triton_block_size
+    return output

blksprs/ops/matmul.py CHANGED Viewed

@@ -13,7 +13,7 @@ from blksprs.utils.validation import validate_contiguous, validate_dimensions, v
 def matmul(x: BlksprsTensor, sparsity_layout_x: Tensor,
            y: BlksprsTensor, sparsity_layout_y: Tensor,
            sparsity_layout_output: Tensor,
-           sparsity_block_size: int, triton_block_size: int = None) -> BlksprsTensor:
+           sparsity_block_size: int, triton_block_size: int = None, lut: dict = None) -> BlksprsTensor:
     """Performs matrix multiplication between two block-sparse tensors.
     The sparsity layout of the output tensor is used to only calculate blocks that will be present in the output.
@@ -26,6 +26,7 @@ def matmul(x: BlksprsTensor, sparsity_layout_x: Tensor,
         sparsity_layout_output (Tensor): The sparsity layout of the output tensor.
         sparsity_block_size (int): The size of the sparsity blocks.
         triton_block_size (int, optional): The block size to use for the triton kernel (default ``None``).
+        lut (dict, optional): A dictionary containing the look-up tables for the operation (default ``None``).
     Returns:
         BlksprsTensor: The result of the matrix multiplication as a block-sparse tensor in compressed form.
@@ -44,35 +45,52 @@ def matmul(x: BlksprsTensor, sparsity_layout_x: Tensor,
     validate_sparsity_block_size(sparsity_block_size, x, y)
     validate_triton_block_size(triton_block_size, sparsity_block_size)
-    sparsity_layout_x_flat = sparsity_layout_x.reshape(-1)
-    sparsity_reverse_lut_x = ((torch.cumsum(sparsity_layout_x_flat, dim=-1) - 1) *
-                              (sparsity_layout_x_flat == 1) -
-                              (1 * (sparsity_layout_x_flat == 0)))
-    sparsity_layout_y_flat = sparsity_layout_y.reshape(-1)
-    sparsity_reverse_lut_y = ((torch.cumsum(sparsity_layout_y_flat, dim=-1) - 1) *
-                              (sparsity_layout_y_flat == 1) -
-                              (1 * (sparsity_layout_y_flat == 0)))
-    sparsity_lut_o = torch.nonzero(sparsity_layout_output).contiguous()
-    n_sparse_blocks = torch.sum(sparsity_layout_output.to(torch.int)).item()
-    validate_contiguous(sparsity_layout_x, sparsity_reverse_lut_x,
-                        sparsity_layout_y, sparsity_reverse_lut_y,
-                        sparsity_layout_output, sparsity_lut_o)
+    lut = _BlocksparseMatmulSSS.build_lut(lut, sparsity_layout_x, sparsity_layout_y, sparsity_layout_output)
     return BlksprsTensor(_BlocksparseMatmulSSS.apply(x, y,
-                                                     sparsity_layout_x, sparsity_reverse_lut_x,
-                                                     sparsity_layout_y, sparsity_reverse_lut_y,
-                                                     sparsity_layout_output, sparsity_lut_o,
+                                                     sparsity_layout_x, lut["sparsity_reverse_lut_x"],
+                                                     sparsity_layout_y, lut["sparsity_reverse_lut_y"],
+                                                     sparsity_layout_output, lut["sparsity_lut_o"],
                                                      sparsity_block_size,
-                                                     n_sparse_blocks,
+                                                     lut["n_sparse_blocks"],
                                                      triton_block_size))
 class _BlocksparseMatmulSSS(torch.autograd.Function):
+    @staticmethod
+    def build_lut(lut: dict, sparsity_layout_x: Tensor, sparsity_layout_y: Tensor, sparsity_layout_output: Tensor):
+        if lut is None:
+            lut = dict()
+        if "sparsity_reverse_lut_x" not in lut:
+            sparsity_layout_x_flat = sparsity_layout_x.reshape(-1)
+            sparsity_reverse_lut_x = ((torch.cumsum(sparsity_layout_x_flat, dim=-1) - 1) *
+                                      (sparsity_layout_x_flat == 1) -
+                                      (1 * (sparsity_layout_x_flat == 0)))
+            lut["sparsity_reverse_lut_x"] = sparsity_reverse_lut_x
+        if "sparsity_reverse_lut_y" not in lut:
+            sparsity_layout_y_flat = sparsity_layout_y.reshape(-1)
+            sparsity_reverse_lut_y = ((torch.cumsum(sparsity_layout_y_flat, dim=-1) - 1) *
+                                      (sparsity_layout_y_flat == 1) -
+                                      (1 * (sparsity_layout_y_flat == 0)))
+            lut["sparsity_reverse_lut_y"] = sparsity_reverse_lut_y
+        if "sparsity_lut_o" not in lut:
+            sparsity_lut_o = torch.nonzero(sparsity_layout_output).contiguous()
+            lut["sparsity_lut_o"] = sparsity_lut_o
+        if "n_sparse_blocks" not in lut:
+            n_sparse_blocks = torch.sum(sparsity_layout_output.to(torch.int)).item()
+            lut["n_sparse_blocks"] = n_sparse_blocks
+        validate_contiguous(sparsity_layout_x, lut["sparsity_reverse_lut_x"],
+                            sparsity_layout_y, lut["sparsity_reverse_lut_y"],
+                            sparsity_layout_output, lut["sparsity_lut_o"])
+        return lut
     @staticmethod
     def forward(ctx, x: Tensor, y: Tensor,
                 sparsity_layout_x: Tensor, sparsity_reverse_lut_x: Tensor,

blksprs 1.10.2__py3-none-any.whl → 1.11__py3-none-any.whl

blksprs 1.10.2py3-none-any.whl → 1.11py3-none-any.whl