PyPI - warp-lang - Versions diffs - 1.7.2__py3-none-manylinux_2_34_aarch64.whl → 1.8.0__py3-none-manylinux_2_34_aarch64.whl - Mend

warp-lang 1.7.2__py3-none-manylinux_2_34_aarch64.whl → 1.8.0__py3-none-manylinux_2_34_aarch64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of warp-lang might be problematic. Click here for more details.

Files changed (180) hide show

warp/__init__.py +3 -1
warp/__init__.pyi +3489 -1
warp/autograd.py +45 -122
warp/bin/warp.so +0 -0
warp/build.py +241 -252
warp/build_dll.py +125 -26
warp/builtins.py +1907 -384
warp/codegen.py +257 -101
warp/config.py +12 -1
warp/constants.py +1 -1
warp/context.py +657 -223
warp/dlpack.py +1 -1
warp/examples/benchmarks/benchmark_cloth.py +2 -2
warp/examples/benchmarks/benchmark_tile_sort.py +155 -0
warp/examples/core/example_sample_mesh.py +1 -1
warp/examples/core/example_spin_lock.py +93 -0
warp/examples/core/example_work_queue.py +118 -0
warp/examples/fem/example_adaptive_grid.py +5 -5
warp/examples/fem/example_apic_fluid.py +1 -1
warp/examples/fem/example_burgers.py +1 -1
warp/examples/fem/example_convection_diffusion.py +9 -6
warp/examples/fem/example_darcy_ls_optimization.py +489 -0
warp/examples/fem/example_deformed_geometry.py +1 -1
warp/examples/fem/example_diffusion.py +2 -2
warp/examples/fem/example_diffusion_3d.py +1 -1
warp/examples/fem/example_distortion_energy.py +1 -1
warp/examples/fem/example_elastic_shape_optimization.py +387 -0
warp/examples/fem/example_magnetostatics.py +5 -3
warp/examples/fem/example_mixed_elasticity.py +5 -3
warp/examples/fem/example_navier_stokes.py +11 -9
warp/examples/fem/example_nonconforming_contact.py +5 -3
warp/examples/fem/example_streamlines.py +8 -3
warp/examples/fem/utils.py +9 -8
warp/examples/interop/example_jax_ffi_callback.py +2 -2
warp/examples/optim/example_drone.py +1 -1
warp/examples/sim/example_cloth.py +1 -1
warp/examples/sim/example_cloth_self_contact.py +48 -54
warp/examples/tile/example_tile_block_cholesky.py +502 -0
warp/examples/tile/example_tile_cholesky.py +2 -1
warp/examples/tile/example_tile_convolution.py +1 -1
warp/examples/tile/example_tile_filtering.py +1 -1
warp/examples/tile/example_tile_matmul.py +1 -1
warp/examples/tile/example_tile_mlp.py +2 -0
warp/fabric.py +7 -7
warp/fem/__init__.py +5 -0
warp/fem/adaptivity.py +1 -1
warp/fem/cache.py +152 -63
warp/fem/dirichlet.py +2 -2
warp/fem/domain.py +136 -6
warp/fem/field/field.py +141 -99
warp/fem/field/nodal_field.py +85 -39
warp/fem/field/virtual.py +97 -52
warp/fem/geometry/adaptive_nanogrid.py +91 -86
warp/fem/geometry/closest_point.py +13 -0
warp/fem/geometry/deformed_geometry.py +102 -40
warp/fem/geometry/element.py +56 -2
warp/fem/geometry/geometry.py +323 -22
warp/fem/geometry/grid_2d.py +157 -62
warp/fem/geometry/grid_3d.py +116 -20
warp/fem/geometry/hexmesh.py +86 -20
warp/fem/geometry/nanogrid.py +166 -86
warp/fem/geometry/partition.py +59 -25
warp/fem/geometry/quadmesh.py +86 -135
warp/fem/geometry/tetmesh.py +47 -119
warp/fem/geometry/trimesh.py +77 -270
warp/fem/integrate.py +107 -52
warp/fem/linalg.py +25 -58
warp/fem/operator.py +124 -27
warp/fem/quadrature/pic_quadrature.py +36 -14
warp/fem/quadrature/quadrature.py +40 -16
warp/fem/space/__init__.py +1 -1
warp/fem/space/basis_function_space.py +66 -46
warp/fem/space/basis_space.py +17 -4
warp/fem/space/dof_mapper.py +1 -1
warp/fem/space/function_space.py +2 -2
warp/fem/space/grid_2d_function_space.py +4 -1
warp/fem/space/hexmesh_function_space.py +4 -2
warp/fem/space/nanogrid_function_space.py +3 -1
warp/fem/space/partition.py +11 -2
warp/fem/space/quadmesh_function_space.py +4 -1
warp/fem/space/restriction.py +5 -2
warp/fem/space/shape/__init__.py +10 -8
warp/fem/space/tetmesh_function_space.py +4 -1
warp/fem/space/topology.py +52 -21
warp/fem/space/trimesh_function_space.py +4 -1
warp/fem/utils.py +53 -8
warp/jax.py +1 -2
warp/jax_experimental/ffi.py +12 -17
warp/jax_experimental/xla_ffi.py +37 -24
warp/math.py +171 -1
warp/native/array.h +99 -0
warp/native/builtin.h +174 -31
warp/native/coloring.cpp +1 -1
warp/native/exports.h +118 -63
warp/native/intersect.h +3 -3
warp/native/mat.h +5 -10
warp/native/mathdx.cpp +11 -5
warp/native/matnn.h +1 -123
warp/native/quat.h +28 -4
warp/native/sparse.cpp +121 -258
warp/native/sparse.cu +181 -274
warp/native/spatial.h +305 -17
warp/native/tile.h +583 -72
warp/native/tile_radix_sort.h +1108 -0
warp/native/tile_reduce.h +237 -2
warp/native/tile_scan.h +240 -0
warp/native/tuple.h +189 -0
warp/native/vec.h +6 -16
warp/native/warp.cpp +36 -4
warp/native/warp.cu +574 -51
warp/native/warp.h +47 -74
warp/optim/linear.py +5 -1
warp/paddle.py +7 -8
warp/py.typed +0 -0
warp/render/render_opengl.py +58 -29
warp/render/render_usd.py +124 -61
warp/sim/__init__.py +9 -0
warp/sim/collide.py +252 -78
warp/sim/graph_coloring.py +8 -1
warp/sim/import_mjcf.py +4 -3
warp/sim/import_usd.py +11 -7
warp/sim/integrator.py +5 -2
warp/sim/integrator_euler.py +1 -1
warp/sim/integrator_featherstone.py +1 -1
warp/sim/integrator_vbd.py +751 -320
warp/sim/integrator_xpbd.py +1 -1
warp/sim/model.py +265 -260
warp/sim/utils.py +10 -7
warp/sparse.py +303 -166
warp/tape.py +52 -51
warp/tests/cuda/test_conditional_captures.py +1046 -0
warp/tests/cuda/test_streams.py +1 -1
warp/tests/geometry/test_volume.py +2 -2
warp/tests/interop/test_dlpack.py +9 -9
warp/tests/interop/test_jax.py +0 -1
warp/tests/run_coverage_serial.py +1 -1
warp/tests/sim/disabled_kinematics.py +2 -2
warp/tests/sim/{test_vbd.py → test_cloth.py} +296 -113
warp/tests/sim/test_collision.py +159 -51
warp/tests/sim/test_coloring.py +15 -1
warp/tests/test_array.py +254 -2
warp/tests/test_array_reduce.py +2 -2
warp/tests/test_atomic_cas.py +299 -0
warp/tests/test_codegen.py +142 -19
warp/tests/test_conditional.py +47 -1
warp/tests/test_ctypes.py +0 -20
warp/tests/test_devices.py +8 -0
warp/tests/test_fabricarray.py +4 -2
warp/tests/test_fem.py +58 -25
warp/tests/test_func.py +42 -1
warp/tests/test_grad.py +1 -1
warp/tests/test_lerp.py +1 -3
warp/tests/test_map.py +481 -0
warp/tests/test_mat.py +1 -24
warp/tests/test_quat.py +6 -15
warp/tests/test_rounding.py +10 -38
warp/tests/test_runlength_encode.py +7 -7
warp/tests/test_smoothstep.py +1 -1
warp/tests/test_sparse.py +51 -2
warp/tests/test_spatial.py +507 -1
warp/tests/test_struct.py +2 -2
warp/tests/test_tuple.py +265 -0
warp/tests/test_types.py +2 -2
warp/tests/test_utils.py +24 -18
warp/tests/tile/test_tile.py +420 -1
warp/tests/tile/test_tile_mathdx.py +518 -14
warp/tests/tile/test_tile_reduce.py +213 -0
warp/tests/tile/test_tile_shared_memory.py +130 -1
warp/tests/tile/test_tile_sort.py +117 -0
warp/tests/unittest_suites.py +4 -6
warp/types.py +462 -308
warp/utils.py +647 -86
{warp_lang-1.7.2.dist-info → warp_lang-1.8.0.dist-info}/METADATA +20 -6
{warp_lang-1.7.2.dist-info → warp_lang-1.8.0.dist-info}/RECORD +177 -165
warp/stubs.py +0 -3381
warp/tests/sim/test_xpbd.py +0 -399
warp/tests/test_mlp.py +0 -282
{warp_lang-1.7.2.dist-info → warp_lang-1.8.0.dist-info}/WHEEL +0 -0
{warp_lang-1.7.2.dist-info → warp_lang-1.8.0.dist-info}/licenses/LICENSE.md +0 -0
{warp_lang-1.7.2.dist-info → warp_lang-1.8.0.dist-info}/top_level.txt +0 -0

warp/native/sparse.cu CHANGED Viewed

@@ -17,6 +17,8 @@
 #include "cuda_util.h"
 #include "warp.h"
+#include "stdint.h"
+#include <cstdint>
 #define THRUST_IGNORE_CUB_VERSION_CHECK
@@ -45,29 +47,55 @@ template <typename T> struct BsrBlockIsNotZero
 {
     int block_size;
     const T* values;
+    T zero_mask;
-    CUDA_CALLABLE_DEVICE bool operator()(int i) const
+    BsrBlockIsNotZero(int block_size, const void* values, const uint64_t zero_mask)
+        : block_size(block_size), values(static_cast<const T*>(values)), zero_mask(static_cast<const T>(zero_mask))
+        {}
+    CUDA_CALLABLE_DEVICE bool operator()(int block) const
     {
         if (!values)
             return true;
-        const T* val = values + i * block_size;
+        const T* val = values + block * block_size;
         for (int i = 0; i < block_size; ++i, ++val)
         {
-            if (*val != T(0))
+            if ((*val & zero_mask) != 0)
                 return true;
         }
         return false;
     }
 };
+template <> struct BsrBlockIsNotZero<void>
+{
+    BsrBlockIsNotZero(int block_size, const void* values, const uint64_t zero_mask)
+    {}
+    CUDA_CALLABLE_DEVICE bool operator()(int block) const
+    {
+        return true;
+    }
+};
 struct BsrBlockInMask
 {
+    const int nrow;
+    const int ncol;
     const int* bsr_offsets;
     const int* bsr_columns;
+    const int* device_nnz;
-    CUDA_CALLABLE_DEVICE bool operator()(int row, int col) const
+    CUDA_CALLABLE_DEVICE bool operator()(int index, int row, int col) const
     {
+        if (device_nnz != nullptr && index >= *device_nnz)
+            return false;
+        if (row < 0 || row >= nrow || col < 0 || col >= ncol){
+            return false;
+        }
         if (bsr_offsets == nullptr)
             return true;
@@ -93,9 +121,9 @@ struct BsrBlockInMask
 };
 template <typename T>
-__global__ void bsr_fill_triplet_key_values(const int nnz, const int nrow, const int* tpl_rows, const int* tpl_columns,
+__global__ void bsr_fill_triplet_key_values(const int nnz, const int* tpl_rows, const int* tpl_columns,
                                             const BsrBlockIsNotZero<T> nonZero, const BsrBlockInMask mask,
-                                            uint32_t* block_indices, BsrRowCol* tpl_row_col)
+                                            int* block_indices, BsrRowCol* tpl_row_col)
 {
     int block = blockIdx.x * blockDim.x + threadIdx.x;
     if (block >= nnz)
@@ -103,10 +131,10 @@ __global__ void bsr_fill_triplet_key_values(const int nnz, const int nrow, const
     const int row = tpl_rows[block];
     const int col = tpl_columns[block];
-    const bool is_valid = row >= 0 && row < nrow;
     const BsrRowCol row_col =
-        is_valid && nonZero(block) && mask(row, col) ? bsr_combine_row_col(row, col) : PRUNED_ROWCOL;
+        mask(block, row, col) && nonZero(block) ? bsr_combine_row_col(row, col) : PRUNED_ROWCOL;
     tpl_row_col[block] = row_col;
     block_indices[block] = block;
 }
@@ -153,126 +181,34 @@ __global__ void bsr_find_row_offsets(uint32_t row_count, const T* d_nnz, const B
     row_offsets[row] = lower;
 }
-template <typename T>
-__global__ void bsr_merge_blocks(const int* d_nnz, int block_size, const uint32_t* block_offsets,
-                                 const uint32_t* sorted_block_indices, const BsrRowCol* unique_row_cols,
-                                 const T* tpl_values, int* bsr_cols, T* bsr_values)
+__global__ void bsr_set_column(const int* d_nnz, const BsrRowCol* unique_row_cols, int* bsr_cols)
 {
     const uint32_t i = blockIdx.x * blockDim.x + threadIdx.x;
     if (i >= *d_nnz)
         return;
     const BsrRowCol row_col = unique_row_cols[i];
     bsr_cols[i] = bsr_get_col(row_col);
-    // Accumulate merged block values
-    if (row_col == PRUNED_ROWCOL || bsr_values == nullptr)
-        return;
-    const uint32_t beg = i ? block_offsets[i - 1] : 0;
-    const uint32_t end = block_offsets[i];
-    T* bsr_val = bsr_values + i * block_size;
-    const T* tpl_val = tpl_values + sorted_block_indices[beg] * block_size;
-    for (int k = 0; k < block_size; ++k)
-    {
-        bsr_val[k] = tpl_val[k];
-    }
-    for (uint32_t cur = beg + 1; cur != end; ++cur)
-    {
-        const T* tpl_val = tpl_values + sorted_block_indices[cur] * block_size;
-        for (int k = 0; k < block_size; ++k)
-        {
-            bsr_val[k] += tpl_val[k];
-        }
-    }
 }
 template <typename T>
-void bsr_matrix_from_triplets_device(const int rows_per_block, const int cols_per_block, const int row_count,
-                                     const int nnz, const int* tpl_rows, const int* tpl_columns, const T* tpl_values,
-                                     const bool prune_numerical_zeros, const bool masked, int* bsr_offsets,
-                                     int* bsr_columns, T* bsr_values, int* bsr_nnz, void* bsr_nnz_event)
+void launch_bsr_fill_triplet_key_values(
+    const int block_size,
+    const int nnz,
+    const BsrBlockInMask& mask,
+    const int* tpl_rows,
+    const int* tpl_columns,
+    const void* tpl_values,
+    const uint64_t scalar_zero_mask,
+    int* block_indices,
+    BsrRowCol* row_col
+     )
 {
-    const int block_size = rows_per_block * cols_per_block;
-    void* context = cuda_context_get_current();
-    ContextGuard guard(context);
-    // Per-context cached temporary buffers
-    // BsrFromTripletsTemp& bsr_temp = g_bsr_from_triplets_temp_map[context];
-    cudaStream_t stream = static_cast<cudaStream_t>(cuda_stream_get_current());
-    ScopedTemporary<uint32_t> block_indices(context, 2 * nnz + 1);
-    ScopedTemporary<BsrRowCol> combined_row_col(context, 2 * nnz);
-    cub::DoubleBuffer<uint32_t> d_keys(block_indices.buffer(), block_indices.buffer() + nnz);
-    cub::DoubleBuffer<BsrRowCol> d_values(combined_row_col.buffer(), combined_row_col.buffer() + nnz);
-    uint32_t* unique_triplet_count = block_indices.buffer() + 2 * nnz;
-    // Combine rows and columns so we can sort on them both
-    BsrBlockIsNotZero<T> isNotZero{block_size, prune_numerical_zeros ? tpl_values : nullptr};
-    BsrBlockInMask mask{masked ? bsr_offsets : nullptr, bsr_columns};
+    BsrBlockIsNotZero<T> isNotZero{block_size, tpl_values, scalar_zero_mask};
     wp_launch_device(WP_CURRENT_CONTEXT, bsr_fill_triplet_key_values, nnz,
-                     (nnz, row_count, tpl_rows, tpl_columns, isNotZero, mask, d_keys.Current(), d_values.Current()));
-    // Sort
-    {
-        size_t buff_size = 0;
-        check_cuda(cub::DeviceRadixSort::SortPairs(nullptr, buff_size, d_values, d_keys, nnz, 0, 64, stream));
-        ScopedTemporary<> temp(context, buff_size);
-        check_cuda(cub::DeviceRadixSort::SortPairs(temp.buffer(), buff_size, d_values, d_keys, nnz, 0, 64, stream));
-    }
-    // Runlength encode row-col sequences
-    {
-        size_t buff_size = 0;
-        check_cuda(cub::DeviceRunLengthEncode::Encode(nullptr, buff_size, d_values.Current(), d_values.Alternate(),
-                                                      d_keys.Alternate(), unique_triplet_count, nnz, stream));
-        ScopedTemporary<> temp(context, buff_size);
-        check_cuda(cub::DeviceRunLengthEncode::Encode(temp.buffer(), buff_size, d_values.Current(),
-                                                      d_values.Alternate(), d_keys.Alternate(), unique_triplet_count,
-                                                      nnz, stream));
-    }
-    // Compute row offsets from sorted unique blocks
-    wp_launch_device(WP_CURRENT_CONTEXT, bsr_find_row_offsets, row_count + 1,
-                     (row_count, unique_triplet_count, d_values.Alternate(), bsr_offsets));
-    if (bsr_nnz)
-    {
-        // Copy nnz to host, and record an event for the completed transfer if desired
-        memcpy_d2h(WP_CURRENT_CONTEXT, bsr_nnz, bsr_offsets + row_count, sizeof(int), stream);
-        if (bsr_nnz_event)
-        {
-            cuda_event_record(bsr_nnz_event, stream);
-        }
-    }
-    // Scan repeated block counts
-    {
-        size_t buff_size = 0;
-        check_cuda(
-            cub::DeviceScan::InclusiveSum(nullptr, buff_size, d_keys.Alternate(), d_keys.Alternate(), nnz, stream));
-        ScopedTemporary<> temp(context, buff_size);
-        check_cuda(cub::DeviceScan::InclusiveSum(temp.buffer(), buff_size, d_keys.Alternate(), d_keys.Alternate(), nnz,
-                                                 stream));
-    }
-    // Accumulate repeated blocks and set column indices
-    wp_launch_device(WP_CURRENT_CONTEXT, bsr_merge_blocks, nnz,
-                     (bsr_offsets + row_count, block_size, d_keys.Alternate(), d_keys.Current(), d_values.Alternate(),
-                      tpl_values, bsr_columns, bsr_values));
+                     (nnz, tpl_rows, tpl_columns, isNotZero, mask, block_indices, row_col   ));
 }
 __global__ void bsr_transpose_fill_row_col(const int nnz_upper_bound, const int row_count, const int* bsr_offsets,
                                            const int* bsr_columns, int* block_indices, BsrRowCol* transposed_row_col)
 {
@@ -283,6 +219,8 @@ __global__ void bsr_transpose_fill_row_col(const int nnz_upper_bound, const int
         // Outside of allocated bounds, do nothing
         return;
     }
+    block_indices[i] = i;
     if (i >= bsr_offsets[row_count])
     {
@@ -291,8 +229,6 @@ __global__ void bsr_transpose_fill_row_col(const int nnz_upper_bound, const int
         return;
     }
-    block_indices[i] = i;
     // Binary search for row
     int lower = 0;
     int upper = row_count - 1;
@@ -317,144 +253,153 @@ __global__ void bsr_transpose_fill_row_col(const int nnz_upper_bound, const int
     transposed_row_col[i] = row_col;
 }
-template <int Rows, int Cols, typename T> struct BsrBlockTransposer
+} // namespace
+WP_API void bsr_matrix_from_triplets_device(
+    const int block_size,
+    int scalar_size,
+    const int row_count,
+    const int col_count,
+    const int nnz,
+    const int* tpl_nnz,
+    const int* tpl_rows,
+    const int* tpl_columns,
+    const void* tpl_values,
+    const uint64_t scalar_zero_mask,
+    const bool masked_topology,
+    int* tpl_block_offsets,
+    int* tpl_block_indices,
+    int* bsr_offsets,
+    int* bsr_columns,
+    int* bsr_nnz, void* bsr_nnz_event)
 {
-    void CUDA_CALLABLE_DEVICE operator()(const T* src, T* dest) const
+    void* context = cuda_context_get_current();
+    ContextGuard guard(context);
+    // Per-context cached temporary buffers
+    // BsrFromTripletsTemp& bsr_temp = g_bsr_from_triplets_temp_map[context];
+    cudaStream_t stream = static_cast<cudaStream_t>(cuda_stream_get_current());
+    ScopedTemporary<BsrRowCol> combined_row_col(context, 2 * size_t(nnz));
+    ScopedTemporary<int> unique_triplet_count(context, 1);
+    bool return_summed_blocks = tpl_block_offsets != nullptr && tpl_block_indices != nullptr;
+    if(!return_summed_blocks)
     {
-        for (int r = 0; r < Rows; ++r)
-        {
-            for (int c = 0; c < Cols; ++c)
-            {
-                dest[c * Rows + r] = src[r * Cols + c];
-            }
-        }
+        // if not provided, allocate temporary offset and indices buffers
+        tpl_block_offsets = static_cast<int*>(alloc_device(context, size_t(nnz) * sizeof(int)));
+        tpl_block_indices = static_cast<int*>(alloc_device(context,  size_t(nnz) * sizeof(int)));
     }
-};
-template <typename T> struct BsrBlockTransposer<-1, -1, T>
-{
-    int row_count;
-    int col_count;
+    cub::DoubleBuffer<int> d_keys(tpl_block_indices, tpl_block_offsets);
+    cub::DoubleBuffer<BsrRowCol> d_values(combined_row_col.buffer(), combined_row_col.buffer() + nnz);
-    void CUDA_CALLABLE_DEVICE operator()(const T* src, T* dest) const
+    // Combine rows and columns so we can sort on them both,
+    // ensuring that blocks that should be pruned are moved to the end
+    BsrBlockInMask mask{row_count, col_count, masked_topology ? bsr_offsets : nullptr, bsr_columns, tpl_nnz};
+    if (scalar_zero_mask == 0 || tpl_values == nullptr)
+        scalar_size = 0;
+    switch(scalar_size)
     {
-        for (int r = 0; r < row_count; ++r)
-        {
-            for (int c = 0; c < col_count; ++c)
-            {
-                dest[c * row_count + r] = src[r * col_count + c];
-            }
-        }
+        case sizeof(uint8_t):
+            launch_bsr_fill_triplet_key_values<uint8_t>(block_size, nnz, mask, tpl_rows, tpl_columns, tpl_values, scalar_zero_mask, d_keys.Current(), d_values.Current());
+            break;
+        case sizeof(uint16_t):
+            launch_bsr_fill_triplet_key_values<uint16_t>(block_size, nnz, mask, tpl_rows, tpl_columns, tpl_values, scalar_zero_mask, d_keys.Current(), d_values.Current());
+            break;
+        case sizeof(uint32_t):
+            launch_bsr_fill_triplet_key_values<uint32_t>(block_size, nnz, mask, tpl_rows, tpl_columns, tpl_values, scalar_zero_mask, d_keys.Current(), d_values.Current());
+            break;
+        case sizeof(uint64_t):
+            launch_bsr_fill_triplet_key_values<uint64_t>(block_size, nnz, mask, tpl_rows, tpl_columns, tpl_values, scalar_zero_mask, d_keys.Current(), d_values.Current());
+            break;
+        default:
+            // no scalar-level pruning
+            launch_bsr_fill_triplet_key_values<void>(block_size, nnz, mask, tpl_rows, tpl_columns, tpl_values, scalar_zero_mask, d_keys.Current(), d_values.Current());
+            break;
     }
-};
-template <int Rows, int Cols, typename T>
-__global__ void bsr_transpose_blocks(const int* nnz, const int block_size, BsrBlockTransposer<Rows, Cols, T> transposer,
-                                     const int* block_indices, const BsrRowCol* transposed_indices, const T* bsr_values,
-                                     int* transposed_bsr_columns, T* transposed_bsr_values)
-{
-    int i = blockIdx.x * blockDim.x + threadIdx.x;
-    if (i >= *nnz)
-        return;
-    const int src_idx = block_indices[i];
+    // Sort
+    {
+        size_t buff_size = 0;
+        check_cuda(cub::DeviceRadixSort::SortPairs(nullptr, buff_size, d_values, d_keys, nnz, 0, 64, stream));
+        ScopedTemporary<> temp(context, buff_size);
+        check_cuda(cub::DeviceRadixSort::SortPairs(temp.buffer(), buff_size, d_values, d_keys, nnz, 0, 64, stream));
-    transposer(bsr_values + src_idx * block_size, transposed_bsr_values + i * block_size);
+        // Depending on data size and GPU architecture buffers may have been swapped or not
+        // Ensures the sorted keys are available in summed_block_indices if needed
+        if(return_summed_blocks && d_keys.Current() != tpl_block_indices)
+        {
+            check_cuda(cudaMemcpy(tpl_block_indices, d_keys.Current(), nnz * sizeof(int), cudaMemcpyDeviceToDevice));
+        }
+    }
-    transposed_bsr_columns[i] = bsr_get_col(transposed_indices[i]);
-}
+    // Runlength encode row-col sequences
+    {
+        size_t buff_size = 0;
+        check_cuda(cub::DeviceRunLengthEncode::Encode(nullptr, buff_size, d_values.Current(), d_values.Alternate(),
+                                                      tpl_block_offsets, unique_triplet_count.buffer(), nnz, stream));
+        ScopedTemporary<> temp(context, buff_size);
+        check_cuda(cub::DeviceRunLengthEncode::Encode(temp.buffer(), buff_size, d_values.Current(),
+                                                      d_values.Alternate(), tpl_block_offsets, unique_triplet_count.buffer(),
+                                                      nnz, stream));
+    }
-template <typename T>
-void launch_bsr_transpose_blocks(int nnz, const int* d_nnz, const int block_size, const int rows_per_block,
-                                 const int cols_per_block, const int* block_indices,
-                                 const BsrRowCol* transposed_indices, const T* bsr_values, int* transposed_bsr_columns,
-                                 T* transposed_bsr_values)
-{
+    // Compute row offsets from sorted unique blocks
+    wp_launch_device(WP_CURRENT_CONTEXT, bsr_find_row_offsets, row_count + 1,
+                     (row_count, unique_triplet_count.buffer(), d_values.Alternate(), bsr_offsets));
-    switch (rows_per_block)
+    if (bsr_nnz)
     {
-    case 1:
-        switch (cols_per_block)
-        {
-        case 1:
-            wp_launch_device(WP_CURRENT_CONTEXT, bsr_transpose_blocks, nnz,
-                             (d_nnz, block_size, BsrBlockTransposer<1, 1, T>{}, block_indices, transposed_indices,
-                              bsr_values, transposed_bsr_columns, transposed_bsr_values));
-            return;
-        case 2:
-            wp_launch_device(WP_CURRENT_CONTEXT, bsr_transpose_blocks, nnz,
-                             (d_nnz, block_size, BsrBlockTransposer<1, 2, T>{}, block_indices, transposed_indices,
-                              bsr_values, transposed_bsr_columns, transposed_bsr_values));
-            return;
-        case 3:
-            wp_launch_device(WP_CURRENT_CONTEXT, bsr_transpose_blocks, nnz,
-                             (d_nnz, block_size, BsrBlockTransposer<1, 3, T>{}, block_indices, transposed_indices,
-                              bsr_values, transposed_bsr_columns, transposed_bsr_values));
-            return;
-        }
-    case 2:
-        switch (cols_per_block)
-        {
-        case 1:
-            wp_launch_device(WP_CURRENT_CONTEXT, bsr_transpose_blocks, nnz,
-                             (d_nnz, block_size, BsrBlockTransposer<2, 1, T>{}, block_indices, transposed_indices,
-                              bsr_values, transposed_bsr_columns, transposed_bsr_values));
-            return;
-        case 2:
-            wp_launch_device(WP_CURRENT_CONTEXT, bsr_transpose_blocks, nnz,
-                             (d_nnz, block_size, BsrBlockTransposer<2, 2, T>{}, block_indices, transposed_indices,
-                              bsr_values, transposed_bsr_columns, transposed_bsr_values));
-            return;
-        case 3:
-            wp_launch_device(WP_CURRENT_CONTEXT, bsr_transpose_blocks, nnz,
-                             (d_nnz, block_size, BsrBlockTransposer<2, 3, T>{}, block_indices, transposed_indices,
-                              bsr_values, transposed_bsr_columns, transposed_bsr_values));
-            return;
-        }
-    case 3:
-        switch (cols_per_block)
+        // Copy nnz to host, and record an event for the completed transfer if desired
+        memcpy_d2h(WP_CURRENT_CONTEXT, bsr_nnz, bsr_offsets + row_count, sizeof(int), stream);
+        if (bsr_nnz_event)
         {
-        case 1:
-            wp_launch_device(WP_CURRENT_CONTEXT, bsr_transpose_blocks, nnz,
-                             (d_nnz, block_size, BsrBlockTransposer<3, 1, T>{}, block_indices, transposed_indices,
-                              bsr_values, transposed_bsr_columns, transposed_bsr_values));
-            return;
-        case 2:
-            wp_launch_device(WP_CURRENT_CONTEXT, bsr_transpose_blocks, nnz,
-                             (d_nnz, block_size, BsrBlockTransposer<3, 2, T>{}, block_indices, transposed_indices,
-                              bsr_values, transposed_bsr_columns, transposed_bsr_values));
-            return;
-        case 3:
-            wp_launch_device(WP_CURRENT_CONTEXT, bsr_transpose_blocks, nnz,
-                             (d_nnz, block_size, BsrBlockTransposer<3, 3, T>{}, block_indices, transposed_indices,
-                              bsr_values, transposed_bsr_columns, transposed_bsr_values));
-            return;
+            cuda_event_record(bsr_nnz_event, stream);
         }
     }
-    wp_launch_device(WP_CURRENT_CONTEXT, bsr_transpose_blocks, nnz,
-                     (d_nnz, block_size, BsrBlockTransposer<-1, -1, T>{rows_per_block, cols_per_block}, block_indices,
-                      transposed_indices, bsr_values, transposed_bsr_columns, transposed_bsr_values));
-}
+    // Set column indices
+    wp_launch_device(WP_CURRENT_CONTEXT, bsr_set_column, nnz,
+                     (bsr_offsets + row_count, d_values.Alternate(),
+                      bsr_columns));
-template <typename T>
-void bsr_transpose_device(int rows_per_block, int cols_per_block, int row_count, int col_count, int nnz,
-                          const int* bsr_offsets, const int* bsr_columns, const T* bsr_values,
-                          int* transposed_bsr_offsets, int* transposed_bsr_columns, T* transposed_bsr_values)
-{
+    // Scan repeated block counts
+    if(return_summed_blocks)
+    {
+        size_t buff_size = 0;
+        check_cuda(
+            cub::DeviceScan::InclusiveSum(nullptr, buff_size, tpl_block_offsets, tpl_block_offsets, nnz, stream));
+        ScopedTemporary<> temp(context, buff_size);
+        check_cuda(cub::DeviceScan::InclusiveSum(temp.buffer(), buff_size, tpl_block_offsets, tpl_block_offsets, nnz,
+                                                 stream));
+    } else {
+        // free our temporary buffers
+        free_device(context, tpl_block_offsets);
+        free_device(context, tpl_block_indices);
+     }
+}
-    const int block_size = rows_per_block * cols_per_block;
+WP_API void bsr_transpose_device(int row_count, int col_count, int nnz,
+                          const int* bsr_offsets, const int* bsr_columns,
+                          int* transposed_bsr_offsets, int* transposed_bsr_columns,
+                          int* src_block_indices)
+{
     void* context = cuda_context_get_current();
     ContextGuard guard(context);
     cudaStream_t stream = static_cast<cudaStream_t>(cuda_stream_get_current());
-    ScopedTemporary<int> block_indices(context, 2 * nnz);
     ScopedTemporary<BsrRowCol> combined_row_col(context, 2 * nnz);
-    cub::DoubleBuffer<int> d_keys(block_indices.buffer(), block_indices.buffer() + nnz);
+    cub::DoubleBuffer<int> d_keys(src_block_indices + nnz, src_block_indices);
     cub::DoubleBuffer<BsrRowCol> d_values(combined_row_col.buffer(), combined_row_col.buffer() + nnz);
     wp_launch_device(WP_CURRENT_CONTEXT, bsr_transpose_fill_row_col, nnz,
@@ -466,59 +411,21 @@ void bsr_transpose_device(int rows_per_block, int cols_per_block, int row_count,
         check_cuda(cub::DeviceRadixSort::SortPairs(nullptr, buff_size, d_values, d_keys, nnz, 0, 64, stream));
         ScopedTemporary<> temp(context, buff_size);
         check_cuda(cub::DeviceRadixSort::SortPairs(temp.buffer(), buff_size, d_values, d_keys, nnz, 0, 64, stream));
+        // Depending on data size and GPU architecture buffers may have been swapped or not
+        // Ensures the sorted keys are available in summed_block_indices if needed
+        if(d_keys.Current() != src_block_indices)
+        {
+            check_cuda(cudaMemcpy(src_block_indices, src_block_indices+nnz, size_t(nnz) * sizeof(int), cudaMemcpyDeviceToDevice));
+        }
     }
     // Compute row offsets from sorted unique blocks
     wp_launch_device(WP_CURRENT_CONTEXT, bsr_find_row_offsets, col_count + 1,
                      (col_count, bsr_offsets + row_count, d_values.Current(), transposed_bsr_offsets));
-    // Move and transpose individual blocks
-    if (transposed_bsr_values != nullptr)
-    {
-        launch_bsr_transpose_blocks(nnz, bsr_offsets + row_count, block_size, rows_per_block, cols_per_block,
-                                    d_keys.Current(), d_values.Current(), bsr_values, transposed_bsr_columns,
-                                    transposed_bsr_values);
-    }
-}
-} // namespace
-void bsr_matrix_from_triplets_float_device(int rows_per_block, int cols_per_block, int row_count, int nnz,
-                                           int* tpl_rows, int* tpl_columns, void* tpl_values,
-                                           bool prune_numerical_zeros, bool masked, int* bsr_offsets, int* bsr_columns,
-                                           void* bsr_values, int* bsr_nnz, void* bsr_nnz_event)
-{
-    return bsr_matrix_from_triplets_device<float>(rows_per_block, cols_per_block, row_count, nnz, tpl_rows, tpl_columns,
-                                                  static_cast<const float*>(tpl_values), prune_numerical_zeros, masked,
-                                                  bsr_offsets, bsr_columns, static_cast<float*>(bsr_values), bsr_nnz,
-                                                  bsr_nnz_event);
-}
-void bsr_matrix_from_triplets_double_device(int rows_per_block, int cols_per_block, int row_count, int nnz,
-                                            int* tpl_rows, int* tpl_columns, void* tpl_values,
-                                            bool prune_numerical_zeros, bool masked, int* bsr_offsets, int* bsr_columns,
-                                            void* bsr_values, int* bsr_nnz, void* bsr_nnz_event)
-{
-    return bsr_matrix_from_triplets_device<double>(rows_per_block, cols_per_block, row_count, nnz, tpl_rows,
-                                                   tpl_columns, static_cast<const double*>(tpl_values),
-                                                   prune_numerical_zeros, masked, bsr_offsets, bsr_columns,
-                                                   static_cast<double*>(bsr_values), bsr_nnz, bsr_nnz_event);
-}
-void bsr_transpose_float_device(int rows_per_block, int cols_per_block, int row_count, int col_count, int nnz,
-                                int* bsr_offsets, int* bsr_columns, void* bsr_values, int* transposed_bsr_offsets,
-                                int* transposed_bsr_columns, void* transposed_bsr_values)
-{
-    bsr_transpose_device(rows_per_block, cols_per_block, row_count, col_count, nnz, bsr_offsets, bsr_columns,
-                         static_cast<const float*>(bsr_values), transposed_bsr_offsets, transposed_bsr_columns,
-                         static_cast<float*>(transposed_bsr_values));
-}
-void bsr_transpose_double_device(int rows_per_block, int cols_per_block, int row_count, int col_count, int nnz,
-                                 int* bsr_offsets, int* bsr_columns, void* bsr_values, int* transposed_bsr_offsets,
-                                 int* transposed_bsr_columns, void* transposed_bsr_values)
-{
-    bsr_transpose_device(rows_per_block, cols_per_block, row_count, col_count, nnz, bsr_offsets, bsr_columns,
-                         static_cast<const double*>(bsr_values), transposed_bsr_offsets, transposed_bsr_columns,
-                         static_cast<double*>(transposed_bsr_values));
+    wp_launch_device(WP_CURRENT_CONTEXT, bsr_set_column, nnz,
+                     (bsr_offsets + row_count, d_values.Current(),
+                      transposed_bsr_columns));
 }