PyPI - warp-lang - Versions diffs - 1.7.2__py3-none-win_amd64.whl → 1.8.0__py3-none-win_amd64.whl - Mend

warp-lang 1.7.2__py3-none-win_amd64.whl → 1.8.0__py3-none-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of warp-lang might be problematic. Click here for more details.

Files changed (181) hide show

warp/__init__.py +3 -1
warp/__init__.pyi +3489 -1
warp/autograd.py +45 -122
warp/bin/warp-clang.dll +0 -0
warp/bin/warp.dll +0 -0
warp/build.py +241 -252
warp/build_dll.py +125 -26
warp/builtins.py +1907 -384
warp/codegen.py +257 -101
warp/config.py +12 -1
warp/constants.py +1 -1
warp/context.py +657 -223
warp/dlpack.py +1 -1
warp/examples/benchmarks/benchmark_cloth.py +2 -2
warp/examples/benchmarks/benchmark_tile_sort.py +155 -0
warp/examples/core/example_sample_mesh.py +1 -1
warp/examples/core/example_spin_lock.py +93 -0
warp/examples/core/example_work_queue.py +118 -0
warp/examples/fem/example_adaptive_grid.py +5 -5
warp/examples/fem/example_apic_fluid.py +1 -1
warp/examples/fem/example_burgers.py +1 -1
warp/examples/fem/example_convection_diffusion.py +9 -6
warp/examples/fem/example_darcy_ls_optimization.py +489 -0
warp/examples/fem/example_deformed_geometry.py +1 -1
warp/examples/fem/example_diffusion.py +2 -2
warp/examples/fem/example_diffusion_3d.py +1 -1
warp/examples/fem/example_distortion_energy.py +1 -1
warp/examples/fem/example_elastic_shape_optimization.py +387 -0
warp/examples/fem/example_magnetostatics.py +5 -3
warp/examples/fem/example_mixed_elasticity.py +5 -3
warp/examples/fem/example_navier_stokes.py +11 -9
warp/examples/fem/example_nonconforming_contact.py +5 -3
warp/examples/fem/example_streamlines.py +8 -3
warp/examples/fem/utils.py +9 -8
warp/examples/interop/example_jax_ffi_callback.py +2 -2
warp/examples/optim/example_drone.py +1 -1
warp/examples/sim/example_cloth.py +1 -1
warp/examples/sim/example_cloth_self_contact.py +48 -54
warp/examples/tile/example_tile_block_cholesky.py +502 -0
warp/examples/tile/example_tile_cholesky.py +2 -1
warp/examples/tile/example_tile_convolution.py +1 -1
warp/examples/tile/example_tile_filtering.py +1 -1
warp/examples/tile/example_tile_matmul.py +1 -1
warp/examples/tile/example_tile_mlp.py +2 -0
warp/fabric.py +7 -7
warp/fem/__init__.py +5 -0
warp/fem/adaptivity.py +1 -1
warp/fem/cache.py +152 -63
warp/fem/dirichlet.py +2 -2
warp/fem/domain.py +136 -6
warp/fem/field/field.py +141 -99
warp/fem/field/nodal_field.py +85 -39
warp/fem/field/virtual.py +97 -52
warp/fem/geometry/adaptive_nanogrid.py +91 -86
warp/fem/geometry/closest_point.py +13 -0
warp/fem/geometry/deformed_geometry.py +102 -40
warp/fem/geometry/element.py +56 -2
warp/fem/geometry/geometry.py +323 -22
warp/fem/geometry/grid_2d.py +157 -62
warp/fem/geometry/grid_3d.py +116 -20
warp/fem/geometry/hexmesh.py +86 -20
warp/fem/geometry/nanogrid.py +166 -86
warp/fem/geometry/partition.py +59 -25
warp/fem/geometry/quadmesh.py +86 -135
warp/fem/geometry/tetmesh.py +47 -119
warp/fem/geometry/trimesh.py +77 -270
warp/fem/integrate.py +107 -52
warp/fem/linalg.py +25 -58
warp/fem/operator.py +124 -27
warp/fem/quadrature/pic_quadrature.py +36 -14
warp/fem/quadrature/quadrature.py +40 -16
warp/fem/space/__init__.py +1 -1
warp/fem/space/basis_function_space.py +66 -46
warp/fem/space/basis_space.py +17 -4
warp/fem/space/dof_mapper.py +1 -1
warp/fem/space/function_space.py +2 -2
warp/fem/space/grid_2d_function_space.py +4 -1
warp/fem/space/hexmesh_function_space.py +4 -2
warp/fem/space/nanogrid_function_space.py +3 -1
warp/fem/space/partition.py +11 -2
warp/fem/space/quadmesh_function_space.py +4 -1
warp/fem/space/restriction.py +5 -2
warp/fem/space/shape/__init__.py +10 -8
warp/fem/space/tetmesh_function_space.py +4 -1
warp/fem/space/topology.py +52 -21
warp/fem/space/trimesh_function_space.py +4 -1
warp/fem/utils.py +53 -8
warp/jax.py +1 -2
warp/jax_experimental/ffi.py +12 -17
warp/jax_experimental/xla_ffi.py +37 -24
warp/math.py +171 -1
warp/native/array.h +99 -0
warp/native/builtin.h +174 -31
warp/native/coloring.cpp +1 -1
warp/native/exports.h +118 -63
warp/native/intersect.h +3 -3
warp/native/mat.h +5 -10
warp/native/mathdx.cpp +11 -5
warp/native/matnn.h +1 -123
warp/native/quat.h +28 -4
warp/native/sparse.cpp +121 -258
warp/native/sparse.cu +181 -274
warp/native/spatial.h +305 -17
warp/native/tile.h +583 -72
warp/native/tile_radix_sort.h +1108 -0
warp/native/tile_reduce.h +237 -2
warp/native/tile_scan.h +240 -0
warp/native/tuple.h +189 -0
warp/native/vec.h +6 -16
warp/native/warp.cpp +36 -4
warp/native/warp.cu +574 -51
warp/native/warp.h +47 -74
warp/optim/linear.py +5 -1
warp/paddle.py +7 -8
warp/py.typed +0 -0
warp/render/render_opengl.py +58 -29
warp/render/render_usd.py +124 -61
warp/sim/__init__.py +9 -0
warp/sim/collide.py +252 -78
warp/sim/graph_coloring.py +8 -1
warp/sim/import_mjcf.py +4 -3
warp/sim/import_usd.py +11 -7
warp/sim/integrator.py +5 -2
warp/sim/integrator_euler.py +1 -1
warp/sim/integrator_featherstone.py +1 -1
warp/sim/integrator_vbd.py +751 -320
warp/sim/integrator_xpbd.py +1 -1
warp/sim/model.py +265 -260
warp/sim/utils.py +10 -7
warp/sparse.py +303 -166
warp/tape.py +52 -51
warp/tests/cuda/test_conditional_captures.py +1046 -0
warp/tests/cuda/test_streams.py +1 -1
warp/tests/geometry/test_volume.py +2 -2
warp/tests/interop/test_dlpack.py +9 -9
warp/tests/interop/test_jax.py +0 -1
warp/tests/run_coverage_serial.py +1 -1
warp/tests/sim/disabled_kinematics.py +2 -2
warp/tests/sim/{test_vbd.py → test_cloth.py} +296 -113
warp/tests/sim/test_collision.py +159 -51
warp/tests/sim/test_coloring.py +15 -1
warp/tests/test_array.py +254 -2
warp/tests/test_array_reduce.py +2 -2
warp/tests/test_atomic_cas.py +299 -0
warp/tests/test_codegen.py +142 -19
warp/tests/test_conditional.py +47 -1
warp/tests/test_ctypes.py +0 -20
warp/tests/test_devices.py +8 -0
warp/tests/test_fabricarray.py +4 -2
warp/tests/test_fem.py +58 -25
warp/tests/test_func.py +42 -1
warp/tests/test_grad.py +1 -1
warp/tests/test_lerp.py +1 -3
warp/tests/test_map.py +481 -0
warp/tests/test_mat.py +1 -24
warp/tests/test_quat.py +6 -15
warp/tests/test_rounding.py +10 -38
warp/tests/test_runlength_encode.py +7 -7
warp/tests/test_smoothstep.py +1 -1
warp/tests/test_sparse.py +51 -2
warp/tests/test_spatial.py +507 -1
warp/tests/test_struct.py +2 -2
warp/tests/test_tuple.py +265 -0
warp/tests/test_types.py +2 -2
warp/tests/test_utils.py +24 -18
warp/tests/tile/test_tile.py +420 -1
warp/tests/tile/test_tile_mathdx.py +518 -14
warp/tests/tile/test_tile_reduce.py +213 -0
warp/tests/tile/test_tile_shared_memory.py +130 -1
warp/tests/tile/test_tile_sort.py +117 -0
warp/tests/unittest_suites.py +4 -6
warp/types.py +462 -308
warp/utils.py +647 -86
{warp_lang-1.7.2.dist-info → warp_lang-1.8.0.dist-info}/METADATA +20 -6
{warp_lang-1.7.2.dist-info → warp_lang-1.8.0.dist-info}/RECORD +178 -166
warp/stubs.py +0 -3381
warp/tests/sim/test_xpbd.py +0 -399
warp/tests/test_mlp.py +0 -282
{warp_lang-1.7.2.dist-info → warp_lang-1.8.0.dist-info}/WHEEL +0 -0
{warp_lang-1.7.2.dist-info → warp_lang-1.8.0.dist-info}/licenses/LICENSE.md +0 -0
{warp_lang-1.7.2.dist-info → warp_lang-1.8.0.dist-info}/top_level.txt +0 -0

warp/native/sparse.cpp CHANGED Viewed

@@ -18,143 +18,103 @@
 #include "warp.h"
 #include <algorithm>
+#include <cstddef>
 #include <numeric>
 #include <vector>
 namespace
 {
-// Specialized is_zero and accumulation function for common block sizes
-// Rely on compiler to unroll loops when block size is known
-template <int N, typename T> bool bsr_fixed_block_is_zero(const T* val, int value_size)
-{
-    return std::all_of(val, val + N, [](float v) { return v == T(0); });
-}
-template <typename T> bool bsr_dyn_block_is_zero(const T* val, int value_size)
+template <typename T> bool bsr_block_is_zero(int block_idx, int block_size, const void* values, const uint64_t scalar_zero_mask)
 {
-    return std::all_of(val, val + value_size, [](float v) { return v == T(0); });
-}
+    const T* block_values = static_cast<const T*>(values) + block_idx * block_size;
+    const T zero_mask = static_cast<T>(scalar_zero_mask);
-template <int N, typename T> void bsr_fixed_block_accumulate(const T* val, T* sum, int value_size)
-{
-    for (int i = 0; i < N; ++i, ++val, ++sum)
-    {
-        *sum += *val;
-    }
+    return std::all_of(block_values, block_values + block_size, [zero_mask](T v) { return (v & zero_mask) == T(0); });
 }
-template <typename T> void bsr_dyn_block_accumulate(const T* val, T* sum, int value_size)
-{
-    for (int i = 0; i < value_size; ++i, ++val, ++sum)
-    {
-        *sum += *val;
-    }
-}
+} // namespace
-template <int Rows, int Cols, typename T>
-void bsr_fixed_block_transpose(const T* src, T* dest, int row_count, int col_count)
-{
-    for (int r = 0; r < Rows; ++r)
-    {
-        for (int c = 0; c < Cols; ++c)
-        {
-            dest[c * Rows + r] = src[r * Cols + c];
-        }
-    }
-}
-template <typename T> void bsr_dyn_block_transpose(const T* src, T* dest, int row_count, int col_count)
-{
-    for (int r = 0; r < row_count; ++r)
+WP_API void bsr_matrix_from_triplets_host(
+    int block_size,
+    int scalar_size_in_bytes,
+    int row_count,
+    int col_count,
+    int nnz,
+    const int* tpl_nnz,
+    const int* tpl_rows,
+    const int* tpl_columns,
+    const void* tpl_values,
+    const uint64_t scalar_zero_mask,
+    bool masked_topology,
+    int* tpl_block_offsets,
+    int* tpl_block_indices,
+    int* bsr_offsets,
+    int* bsr_columns,
+    int* bsr_nnz,
+    void* bsr_nnz_event)
+{
+    if (tpl_nnz != nullptr)
     {
-        for (int c = 0; c < col_count; ++c)
-        {
-            dest[c * row_count + r] = src[r * col_count + c];
-        }
+        nnz = *tpl_nnz;
     }
-}
-} // namespace
-template <typename T>
-int bsr_matrix_from_triplets_host(const int rows_per_block, const int cols_per_block, const int row_count,
-                                  const int nnz, const int* tpl_rows, const int* tpl_columns, const T* tpl_values,
-                                  const bool prune_numerical_zeros, const bool masked, int* bsr_offsets,
-                                  int* bsr_columns, T* bsr_values)
-{
-    // get specialized accumulator for common block sizes (1,1), (1,2), (1,3),
-    // (2,2), (2,3), (3,3)
-    const int block_size = rows_per_block * cols_per_block;
-    void (*block_accumulate_func)(const T*, T*, int);
-    bool (*block_is_zero_func)(const T*, int);
-    switch (block_size)
+    // allocate temporary buffers if not provided
+    bool return_summed_blocks = tpl_block_offsets != nullptr && tpl_block_indices != nullptr;
+    if (!return_summed_blocks)
     {
-    case 1:
-        block_accumulate_func = bsr_fixed_block_accumulate<1, T>;
-        block_is_zero_func = bsr_fixed_block_is_zero<1, T>;
-        break;
-    case 2:
-        block_accumulate_func = bsr_fixed_block_accumulate<2, T>;
-        block_is_zero_func = bsr_fixed_block_is_zero<2, T>;
-        break;
-    case 3:
-        block_accumulate_func = bsr_fixed_block_accumulate<3, T>;
-        block_is_zero_func = bsr_fixed_block_is_zero<3, T>;
-        break;
-    case 4:
-        block_accumulate_func = bsr_fixed_block_accumulate<4, T>;
-        block_is_zero_func = bsr_fixed_block_is_zero<4, T>;
-        break;
-    case 6:
-        block_accumulate_func = bsr_fixed_block_accumulate<6, T>;
-        block_is_zero_func = bsr_fixed_block_is_zero<6, T>;
-        break;
-    case 9:
-        block_accumulate_func = bsr_fixed_block_accumulate<9, T>;
-        block_is_zero_func = bsr_fixed_block_is_zero<9, T>;
-        break;
-    default:
-        block_accumulate_func = bsr_dyn_block_accumulate<T>;
-        block_is_zero_func = bsr_dyn_block_is_zero<T>;
+        tpl_block_offsets = static_cast<int*>(alloc_host(size_t(nnz) * sizeof(int)));
+        tpl_block_indices = static_cast<int*>(alloc_host(size_t(nnz) * sizeof(int)));
     }
-    std::vector<int> block_indices(nnz);
-    std::iota(block_indices.begin(), block_indices.end(), 0);
-    // remove zero blocks  and invalid row indices
+    std::iota(tpl_block_indices, tpl_block_indices + nnz, 0);
-    auto discard_block = [&](int i)
+    // remove invalid indices / indices not in mask
+    auto discard_invalid_block = [&](int i) -> bool
     {
         const int row = tpl_rows[i];
-        if (row < 0 || row >= row_count)
-        {
-            return true;
-        }
-        if (prune_numerical_zeros && tpl_values && block_is_zero_func(tpl_values + i * block_size, block_size))
+        const int col = tpl_columns[i];
+        if (row < 0 || row >= row_count || col < 0 || col >= col_count)
         {
             return true;
         }
-        if (!masked)
+        if (!masked_topology)
         {
             return false;
         }
         const int* beg = bsr_columns + bsr_offsets[row];
         const int* end = bsr_columns + bsr_offsets[row + 1];
-        const int col = tpl_columns[i];
         const int* block = std::lower_bound(beg, end, col);
         return block == end || *block != col;
     };
-    block_indices.erase(std::remove_if(block_indices.begin(), block_indices.end(), discard_block), block_indices.end());
+    int* valid_indices_end = std::remove_if(tpl_block_indices, tpl_block_indices + nnz, discard_invalid_block);
+    // remove zero blocks
+    if (tpl_values != nullptr && scalar_zero_mask != 0)
+    {
+        switch (scalar_size_in_bytes)
+        {
+            case sizeof(uint8_t):
+                valid_indices_end = std::remove_if(tpl_block_indices, valid_indices_end, [block_size, tpl_values, scalar_zero_mask](uint32_t i) { return bsr_block_is_zero<uint8_t>(i, block_size, tpl_values, scalar_zero_mask); });
+                break;
+            case sizeof(uint16_t):
+                valid_indices_end = std::remove_if(tpl_block_indices, valid_indices_end, [block_size, tpl_values, scalar_zero_mask](uint32_t i) { return bsr_block_is_zero<uint16_t>(i, block_size, tpl_values, scalar_zero_mask); });
+                break;
+            case sizeof(uint32_t):
+                valid_indices_end = std::remove_if(tpl_block_indices, valid_indices_end, [block_size, tpl_values, scalar_zero_mask](uint32_t i) { return bsr_block_is_zero<uint32_t>(i, block_size, tpl_values, scalar_zero_mask); });
+                break;
+            case sizeof(uint64_t):
+                valid_indices_end = std::remove_if(tpl_block_indices, valid_indices_end, [block_size, tpl_values, scalar_zero_mask](uint32_t i) { return bsr_block_is_zero<uint64_t>(i, block_size, tpl_values, scalar_zero_mask); });
+                break;
+        }
+    }
     // sort block indices according to lexico order
-    std::sort(block_indices.begin(), block_indices.end(), [tpl_rows, tpl_columns](int i, int j) -> bool
+    std::sort(tpl_block_indices, valid_indices_end, [tpl_rows, tpl_columns](int i, int j) -> bool
               { return tpl_rows[i] < tpl_rows[j] || (tpl_rows[i] == tpl_rows[j] && tpl_columns[i] < tpl_columns[j]); });
     // accumulate blocks at same locations, count blocks per row
@@ -162,107 +122,62 @@ int bsr_matrix_from_triplets_host(const int rows_per_block, const int cols_per_b
     int current_row = -1;
     int current_col = -1;
+    int current_block_idx = -1;
-    // so that we get back to the start for the first block
-    if (bsr_values)
-    {
-        bsr_values -= block_size;
-    }
-    for (int i = 0; i < block_indices.size(); ++i)
+    for (int *block = tpl_block_indices, *block_offset = tpl_block_offsets ; block != valid_indices_end ; ++ block)
     {
-        int idx = block_indices[i];
+        int32_t idx = *block;
         int row = tpl_rows[idx];
         int col = tpl_columns[idx];
-        const T* val = tpl_values + idx * block_size;
-        if (row == current_row && col == current_col)
-        {
-            if (bsr_values)
-            {
-                block_accumulate_func(val, bsr_values, block_size);
-            }
-        }
-        else
+        if (row != current_row || col != current_col)
         {
             *(bsr_columns++) = col;
-            if (bsr_values)
-            {
-                bsr_values += block_size;
-                std::copy_n(val, block_size, bsr_values);
-            }
+            ++bsr_offsets[row + 1];
-            bsr_offsets[row + 1]++;
+            if(current_row == -1) {
+                *block_offset = 0;
+            } else {
+                *(block_offset+1) = *block_offset;
+                ++block_offset;
+            }
             current_row = row;
             current_col = col;
         }
+        ++(*block_offset);
     }
     // build postfix sum of row counts
     std::partial_sum(bsr_offsets, bsr_offsets + row_count + 1, bsr_offsets);
-    return bsr_offsets[row_count];
-}
-template <typename T>
-void bsr_transpose_host(int rows_per_block, int cols_per_block, int row_count, int col_count, int nnz_up,
-                        const int* bsr_offsets, const int* bsr_columns, const T* bsr_values,
-                        int* transposed_bsr_offsets, int* transposed_bsr_columns, T* transposed_bsr_values)
-{
-    const int nnz = bsr_offsets[row_count];
-    const int block_size = rows_per_block * cols_per_block;
+    if(!return_summed_blocks)
+    {
+        // free our temporary buffers
+        free_host(tpl_block_offsets);
+        free_host(tpl_block_indices);
+    }
-    void (*block_transpose_func)(const T*, T*, int, int) = bsr_dyn_block_transpose<T>;
-    switch (rows_per_block)
+    if (bsr_nnz != nullptr)
     {
-    case 1:
-        switch (cols_per_block)
-        {
-        case 1:
-            block_transpose_func = bsr_fixed_block_transpose<1, 1, T>;
-            break;
-        case 2:
-            block_transpose_func = bsr_fixed_block_transpose<1, 2, T>;
-            break;
-        case 3:
-            block_transpose_func = bsr_fixed_block_transpose<1, 3, T>;
-            break;
-        }
-        break;
-    case 2:
-        switch (cols_per_block)
-        {
-        case 1:
-            block_transpose_func = bsr_fixed_block_transpose<2, 1, T>;
-            break;
-        case 2:
-            block_transpose_func = bsr_fixed_block_transpose<2, 2, T>;
-            break;
-        case 3:
-            block_transpose_func = bsr_fixed_block_transpose<2, 3, T>;
-            break;
-        }
-        break;
-    case 3:
-        switch (cols_per_block)
-        {
-        case 1:
-            block_transpose_func = bsr_fixed_block_transpose<3, 1, T>;
-            break;
-        case 2:
-            block_transpose_func = bsr_fixed_block_transpose<3, 2, T>;
-            break;
-        case 3:
-            block_transpose_func = bsr_fixed_block_transpose<3, 3, T>;
-            break;
-        }
-        break;
+        *bsr_nnz = bsr_offsets[row_count];
     }
+}
-    std::vector<int> block_indices(nnz), bsr_rows(nnz);
-    std::iota(block_indices.begin(), block_indices.end(), 0);
+WP_API void bsr_transpose_host(
+    int row_count, int col_count, int nnz,
+    const int* bsr_offsets, const int* bsr_columns,
+    int* transposed_bsr_offsets,
+    int* transposed_bsr_columns,
+    int* block_indices
+    )
+{
+    nnz = bsr_offsets[row_count];
+    std::vector<int> bsr_rows(nnz);
+    std::iota(block_indices, block_indices + nnz, 0);
     // Fill row indices from offsets
     for (int row = 0; row < row_count; ++row)
@@ -272,7 +187,7 @@ void bsr_transpose_host(int rows_per_block, int cols_per_block, int row_count, i
     // sort block indices according to (transposed) lexico order
     std::sort(
-        block_indices.begin(), block_indices.end(), [&bsr_rows, bsr_columns](int i, int j) -> bool
+        block_indices, block_indices + nnz, [&bsr_rows, bsr_columns](int i, int j) -> bool
         { return bsr_columns[i] < bsr_columns[j] || (bsr_columns[i] == bsr_columns[j] && bsr_rows[i] < bsr_rows[j]); });
     // Count blocks per column and transpose blocks
@@ -286,93 +201,41 @@ void bsr_transpose_host(int rows_per_block, int cols_per_block, int row_count, i
         ++transposed_bsr_offsets[col + 1];
         transposed_bsr_columns[i] = row;
-        if (transposed_bsr_values != nullptr)
-        {
-            const T* src_block = bsr_values + idx * block_size;
-            T* dst_block = transposed_bsr_values + i * block_size;
-            block_transpose_func(src_block, dst_block, rows_per_block, cols_per_block);
-        }
     }
     // build postfix sum of column counts
     std::partial_sum(transposed_bsr_offsets, transposed_bsr_offsets + col_count + 1, transposed_bsr_offsets);
-}
-WP_API void bsr_matrix_from_triplets_float_host(int rows_per_block, int cols_per_block, int row_count, int nnz,
-                                                int* tpl_rows, int* tpl_columns, void* tpl_values,
-                                                bool prune_numerical_zeros, bool masked, int* bsr_offsets,
-                                                int* bsr_columns, void* bsr_values, int* bsr_nnz, void* bsr_nnz_event)
-{
-    bsr_matrix_from_triplets_host<float>(rows_per_block, cols_per_block, row_count, nnz, tpl_rows, tpl_columns,
-                                         static_cast<const float*>(tpl_values), prune_numerical_zeros, masked,
-                                         bsr_offsets, bsr_columns, static_cast<float*>(bsr_values));
-    if (bsr_nnz)
-    {
-        *bsr_nnz = bsr_offsets[row_count];
-    }
-}
-WP_API void bsr_matrix_from_triplets_double_host(int rows_per_block, int cols_per_block, int row_count, int nnz,
-                                                 int* tpl_rows, int* tpl_columns, void* tpl_values,
-                                                 bool prune_numerical_zeros, bool masked, int* bsr_offsets,
-                                                 int* bsr_columns, void* bsr_values, int* bsr_nnz, void* bsr_nnz_event)
-{
-    bsr_matrix_from_triplets_host<double>(rows_per_block, cols_per_block, row_count, nnz, tpl_rows, tpl_columns,
-                                          static_cast<const double*>(tpl_values), prune_numerical_zeros, masked,
-                                          bsr_offsets, bsr_columns, static_cast<double*>(bsr_values));
-    if (bsr_nnz)
-    {
-        *bsr_nnz = bsr_offsets[row_count];
-    }
-}
-WP_API void bsr_transpose_float_host(int rows_per_block, int cols_per_block, int row_count, int col_count, int nnz,
-                                     int* bsr_offsets, int* bsr_columns, void* bsr_values, int* transposed_bsr_offsets,
-                                     int* transposed_bsr_columns, void* transposed_bsr_values)
-{
-    bsr_transpose_host(rows_per_block, cols_per_block, row_count, col_count, nnz, bsr_offsets, bsr_columns,
-                       static_cast<const float*>(bsr_values), transposed_bsr_offsets, transposed_bsr_columns,
-                       static_cast<float*>(transposed_bsr_values));
-}
-WP_API void bsr_transpose_double_host(int rows_per_block, int cols_per_block, int row_count, int col_count, int nnz,
-                                      int* bsr_offsets, int* bsr_columns, void* bsr_values, int* transposed_bsr_offsets,
-                                      int* transposed_bsr_columns, void* transposed_bsr_values)
-{
-    bsr_transpose_host(rows_per_block, cols_per_block, row_count, col_count, nnz, bsr_offsets, bsr_columns,
-                       static_cast<const double*>(bsr_values), transposed_bsr_offsets, transposed_bsr_columns,
-                       static_cast<double*>(transposed_bsr_values));
 }
 #if !WP_ENABLE_CUDA
-WP_API void bsr_matrix_from_triplets_float_device(int rows_per_block, int cols_per_block, int row_count, int nnz,
-                                                  int* tpl_rows, int* tpl_columns, void* tpl_values,
-                                                  bool prune_numerical_zeros, bool masked, int* bsr_offsets,
-                                                  int* bsr_columns, void* bsr_values, int* bsr_nnz, void* bsr_nnz_event)
-{
-}
+WP_API void bsr_matrix_from_triplets_device(
+    int block_size,
+    int scalar_size_in_bytes,
+    int row_count,
+    int col_count,
+    int tpl_nnz_upper_bound,
+    const int* tpl_nnz,
+    const int* tpl_rows,
+    const int* tpl_columns,
+    const void* tpl_values,
+    const uint64_t scalar_zero_mask,
+    bool masked_topology,
+    int* summed_block_offsets,
+    int* summed_block_indices,
+    int* bsr_offsets,
+    int* bsr_columns,
+    int* bsr_nnz,
+    void* bsr_nnz_event) {}
+WP_API void bsr_transpose_device(
+    int row_count, int col_count, int nnz,
+    const int* bsr_offsets, const int* bsr_columns,
+    int* transposed_bsr_offsets,
+    int* transposed_bsr_columns,
+    int* src_block_indices) {}
-WP_API void bsr_matrix_from_triplets_double_device(int rows_per_block, int cols_per_block, int row_count, int nnz,
-                                                   int* tpl_rows, int* tpl_columns, void* tpl_values,
-                                                   bool prune_numerical_zeros, bool masked, int* bsr_offsets,
-                                                   int* bsr_columns, void* bsr_values, int* bsr_nnz,
-                                                   void* bsr_nnz_event)
-{
-}
-WP_API void bsr_transpose_float_device(int rows_per_block, int cols_per_block, int row_count, int col_count, int nnz,
-                                       int* bsr_offsets, int* bsr_columns, void* bsr_values,
-                                       int* transposed_bsr_offsets, int* transposed_bsr_columns,
-                                       void* transposed_bsr_values)
-{
-}
-WP_API void bsr_transpose_double_device(int rows_per_block, int cols_per_block, int row_count, int col_count, int nnz,
-                                        int* bsr_offsets, int* bsr_columns, void* bsr_values,
-                                        int* transposed_bsr_offsets, int* transposed_bsr_columns,
-                                        void* transposed_bsr_values)
-{
-}
 #endif