PyPI - warp-lang - Versions diffs - 1.0.2__py3-none-manylinux2014_x86_64.whl → 1.2.0__py3-none-manylinux2014_x86_64.whl - Mend

warp-lang 1.0.2__py3-none-manylinux2014_x86_64.whl → 1.2.0__py3-none-manylinux2014_x86_64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of warp-lang might be problematic. Click here for more details.

Files changed (356) hide show

warp/__init__.py +108 -97
warp/__init__.pyi +1 -1
warp/bin/warp-clang.so +0 -0
warp/bin/warp.so +0 -0
warp/build.py +88 -113
warp/build_dll.py +383 -375
warp/builtins.py +3693 -3354
warp/codegen.py +2925 -2792
warp/config.py +40 -36
warp/constants.py +49 -45
warp/context.py +5409 -5102
warp/dlpack.py +442 -442
warp/examples/__init__.py +16 -16
warp/examples/assets/bear.usd +0 -0
warp/examples/assets/bunny.usd +0 -0
warp/examples/assets/cartpole.urdf +110 -110
warp/examples/assets/crazyflie.usd +0 -0
warp/examples/assets/cube.usd +0 -0
warp/examples/assets/nv_ant.xml +92 -92
warp/examples/assets/nv_humanoid.xml +183 -183
warp/examples/assets/quadruped.urdf +267 -267
warp/examples/assets/rocks.nvdb +0 -0
warp/examples/assets/rocks.usd +0 -0
warp/examples/assets/sphere.usd +0 -0
warp/examples/benchmarks/benchmark_api.py +381 -383
warp/examples/benchmarks/benchmark_cloth.py +278 -277
warp/examples/benchmarks/benchmark_cloth_cupy.py +88 -88
warp/examples/benchmarks/benchmark_cloth_jax.py +97 -100
warp/examples/benchmarks/benchmark_cloth_numba.py +146 -142
warp/examples/benchmarks/benchmark_cloth_numpy.py +77 -77
warp/examples/benchmarks/benchmark_cloth_pytorch.py +86 -86
warp/examples/benchmarks/benchmark_cloth_taichi.py +112 -112
warp/examples/benchmarks/benchmark_cloth_warp.py +145 -146
warp/examples/benchmarks/benchmark_launches.py +293 -295
warp/examples/browse.py +29 -29
warp/examples/core/example_dem.py +232 -219
warp/examples/core/example_fluid.py +291 -267
warp/examples/core/example_graph_capture.py +142 -126
warp/examples/core/example_marching_cubes.py +186 -174
warp/examples/core/example_mesh.py +172 -155
warp/examples/core/example_mesh_intersect.py +203 -193
warp/examples/core/example_nvdb.py +174 -170
warp/examples/core/example_raycast.py +103 -90
warp/examples/core/example_raymarch.py +197 -178
warp/examples/core/example_render_opengl.py +183 -141
warp/examples/core/example_sph.py +403 -387
warp/examples/core/example_torch.py +219 -181
warp/examples/core/example_wave.py +261 -248
warp/examples/fem/bsr_utils.py +378 -380
warp/examples/fem/example_apic_fluid.py +432 -389
warp/examples/fem/example_burgers.py +262 -0
warp/examples/fem/example_convection_diffusion.py +180 -168
warp/examples/fem/example_convection_diffusion_dg.py +217 -209
warp/examples/fem/example_deformed_geometry.py +175 -159
warp/examples/fem/example_diffusion.py +199 -173
warp/examples/fem/example_diffusion_3d.py +178 -152
warp/examples/fem/example_diffusion_mgpu.py +219 -214
warp/examples/fem/example_mixed_elasticity.py +242 -222
warp/examples/fem/example_navier_stokes.py +257 -243
warp/examples/fem/example_stokes.py +218 -192
warp/examples/fem/example_stokes_transfer.py +263 -249
warp/examples/fem/mesh_utils.py +133 -109
warp/examples/fem/plot_utils.py +292 -287
warp/examples/optim/example_bounce.py +258 -246
warp/examples/optim/example_cloth_throw.py +220 -209
warp/examples/optim/example_diffray.py +564 -536
warp/examples/optim/example_drone.py +862 -835
warp/examples/optim/example_inverse_kinematics.py +174 -168
warp/examples/optim/example_inverse_kinematics_torch.py +183 -169
warp/examples/optim/example_spring_cage.py +237 -231
warp/examples/optim/example_trajectory.py +221 -199
warp/examples/optim/example_walker.py +304 -293
warp/examples/sim/example_cartpole.py +137 -129
warp/examples/sim/example_cloth.py +194 -186
warp/examples/sim/example_granular.py +122 -111
warp/examples/sim/example_granular_collision_sdf.py +195 -186
warp/examples/sim/example_jacobian_ik.py +234 -214
warp/examples/sim/example_particle_chain.py +116 -105
warp/examples/sim/example_quadruped.py +191 -180
warp/examples/sim/example_rigid_chain.py +195 -187
warp/examples/sim/example_rigid_contact.py +187 -177
warp/examples/sim/example_rigid_force.py +125 -125
warp/examples/sim/example_rigid_gyroscopic.py +107 -95
warp/examples/sim/example_rigid_soft_contact.py +132 -122
warp/examples/sim/example_soft_body.py +188 -177
warp/fabric.py +337 -335
warp/fem/__init__.py +61 -27
warp/fem/cache.py +403 -388
warp/fem/dirichlet.py +178 -179
warp/fem/domain.py +262 -263
warp/fem/field/__init__.py +100 -101
warp/fem/field/field.py +148 -149
warp/fem/field/nodal_field.py +298 -299
warp/fem/field/restriction.py +22 -21
warp/fem/field/test.py +180 -181
warp/fem/field/trial.py +183 -183
warp/fem/geometry/__init__.py +16 -19
warp/fem/geometry/closest_point.py +69 -70
warp/fem/geometry/deformed_geometry.py +270 -271
warp/fem/geometry/element.py +748 -744
warp/fem/geometry/geometry.py +184 -186
warp/fem/geometry/grid_2d.py +380 -373
warp/fem/geometry/grid_3d.py +437 -435
warp/fem/geometry/hexmesh.py +953 -953
warp/fem/geometry/nanogrid.py +455 -0
warp/fem/geometry/partition.py +374 -376
warp/fem/geometry/quadmesh_2d.py +532 -532
warp/fem/geometry/tetmesh.py +840 -840
warp/fem/geometry/trimesh_2d.py +577 -577
warp/fem/integrate.py +1684 -1615
warp/fem/operator.py +190 -191
warp/fem/polynomial.py +214 -213
warp/fem/quadrature/__init__.py +2 -2
warp/fem/quadrature/pic_quadrature.py +243 -245
warp/fem/quadrature/quadrature.py +295 -294
warp/fem/space/__init__.py +179 -292
warp/fem/space/basis_space.py +522 -489
warp/fem/space/collocated_function_space.py +100 -105
warp/fem/space/dof_mapper.py +236 -236
warp/fem/space/function_space.py +148 -145
warp/fem/space/grid_2d_function_space.py +148 -267
warp/fem/space/grid_3d_function_space.py +167 -306
warp/fem/space/hexmesh_function_space.py +253 -352
warp/fem/space/nanogrid_function_space.py +202 -0
warp/fem/space/partition.py +350 -350
warp/fem/space/quadmesh_2d_function_space.py +261 -369
warp/fem/space/restriction.py +161 -160
warp/fem/space/shape/__init__.py +90 -15
warp/fem/space/shape/cube_shape_function.py +728 -738
warp/fem/space/shape/shape_function.py +102 -103
warp/fem/space/shape/square_shape_function.py +611 -611
warp/fem/space/shape/tet_shape_function.py +565 -567
warp/fem/space/shape/triangle_shape_function.py +429 -429
warp/fem/space/tetmesh_function_space.py +224 -292
warp/fem/space/topology.py +297 -295
warp/fem/space/trimesh_2d_function_space.py +153 -221
warp/fem/types.py +77 -77
warp/fem/utils.py +495 -495
warp/jax.py +166 -141
warp/jax_experimental.py +341 -339
warp/native/array.h +1081 -1025
warp/native/builtin.h +1603 -1560
warp/native/bvh.cpp +402 -398
warp/native/bvh.cu +533 -525
warp/native/bvh.h +430 -429
warp/native/clang/clang.cpp +496 -464
warp/native/crt.cpp +42 -32
warp/native/crt.h +352 -335
warp/native/cuda_crt.h +1049 -1049
warp/native/cuda_util.cpp +549 -540
warp/native/cuda_util.h +288 -203
warp/native/cutlass_gemm.cpp +34 -34
warp/native/cutlass_gemm.cu +372 -372
warp/native/error.cpp +66 -66
warp/native/error.h +27 -27
warp/native/exports.h +187 -0
warp/native/fabric.h +228 -228
warp/native/hashgrid.cpp +301 -278
warp/native/hashgrid.cu +78 -77
warp/native/hashgrid.h +227 -227
warp/native/initializer_array.h +32 -32
warp/native/intersect.h +1204 -1204
warp/native/intersect_adj.h +365 -365
warp/native/intersect_tri.h +322 -322
warp/native/marching.cpp +2 -2
warp/native/marching.cu +497 -497
warp/native/marching.h +2 -2
warp/native/mat.h +1545 -1498
warp/native/matnn.h +333 -333
warp/native/mesh.cpp +203 -203
warp/native/mesh.cu +292 -293
warp/native/mesh.h +1887 -1887
warp/native/nanovdb/GridHandle.h +366 -0
warp/native/nanovdb/HostBuffer.h +590 -0
warp/native/nanovdb/NanoVDB.h +6624 -4782
warp/native/nanovdb/PNanoVDB.h +3390 -2553
warp/native/noise.h +850 -850
warp/native/quat.h +1112 -1085
warp/native/rand.h +303 -299
warp/native/range.h +108 -108
warp/native/reduce.cpp +156 -156
warp/native/reduce.cu +348 -348
warp/native/runlength_encode.cpp +61 -61
warp/native/runlength_encode.cu +46 -46
warp/native/scan.cpp +30 -30
warp/native/scan.cu +36 -36
warp/native/scan.h +7 -7
warp/native/solid_angle.h +442 -442
warp/native/sort.cpp +94 -94
warp/native/sort.cu +97 -97
warp/native/sort.h +14 -14
warp/native/sparse.cpp +337 -337
warp/native/sparse.cu +544 -544
warp/native/spatial.h +630 -630
warp/native/svd.h +562 -562
warp/native/temp_buffer.h +30 -30
warp/native/vec.h +1177 -1133
warp/native/volume.cpp +529 -297
warp/native/volume.cu +58 -32
warp/native/volume.h +960 -538
warp/native/volume_builder.cu +446 -425
warp/native/volume_builder.h +34 -19
warp/native/volume_impl.h +61 -0
warp/native/warp.cpp +1057 -1052
warp/native/warp.cu +2949 -2828
warp/native/warp.h +321 -305
warp/optim/__init__.py +9 -9
warp/optim/adam.py +120 -120
warp/optim/linear.py +1104 -939
warp/optim/sgd.py +104 -92
warp/render/__init__.py +10 -10
warp/render/render_opengl.py +3356 -3204
warp/render/render_usd.py +768 -749
warp/render/utils.py +152 -150
warp/sim/__init__.py +52 -59
warp/sim/articulation.py +685 -685
warp/sim/collide.py +1594 -1590
warp/sim/import_mjcf.py +489 -481
warp/sim/import_snu.py +220 -221
warp/sim/import_urdf.py +536 -516
warp/sim/import_usd.py +887 -881
warp/sim/inertia.py +316 -317
warp/sim/integrator.py +234 -233
warp/sim/integrator_euler.py +1956 -1956
warp/sim/integrator_featherstone.py +1917 -1991
warp/sim/integrator_xpbd.py +3288 -3312
warp/sim/model.py +4473 -4314
warp/sim/particles.py +113 -112
warp/sim/render.py +417 -403
warp/sim/utils.py +413 -410
warp/sparse.py +1289 -1227
warp/stubs.py +2192 -2469
warp/tape.py +1162 -225
warp/tests/__init__.py +1 -1
warp/tests/__main__.py +4 -4
warp/tests/assets/test_index_grid.nvdb +0 -0
warp/tests/assets/torus.usda +105 -105
warp/tests/aux_test_class_kernel.py +26 -26
warp/tests/aux_test_compile_consts_dummy.py +10 -10
warp/tests/aux_test_conditional_unequal_types_kernels.py +21 -21
warp/tests/aux_test_dependent.py +20 -22
warp/tests/aux_test_grad_customs.py +21 -23
warp/tests/aux_test_reference.py +9 -11
warp/tests/aux_test_reference_reference.py +8 -10
warp/tests/aux_test_square.py +15 -17
warp/tests/aux_test_unresolved_func.py +14 -14
warp/tests/aux_test_unresolved_symbol.py +14 -14
warp/tests/disabled_kinematics.py +237 -239
warp/tests/run_coverage_serial.py +31 -31
warp/tests/test_adam.py +155 -157
warp/tests/test_arithmetic.py +1088 -1124
warp/tests/test_array.py +2415 -2326
warp/tests/test_array_reduce.py +148 -150
warp/tests/test_async.py +666 -656
warp/tests/test_atomic.py +139 -141
warp/tests/test_bool.py +212 -149
warp/tests/test_builtins_resolution.py +1290 -1292
warp/tests/test_bvh.py +162 -171
warp/tests/test_closest_point_edge_edge.py +227 -228
warp/tests/test_codegen.py +562 -553
warp/tests/test_compile_consts.py +217 -101
warp/tests/test_conditional.py +244 -246
warp/tests/test_copy.py +230 -215
warp/tests/test_ctypes.py +630 -632
warp/tests/test_dense.py +65 -67
warp/tests/test_devices.py +89 -98
warp/tests/test_dlpack.py +528 -529
warp/tests/test_examples.py +403 -378
warp/tests/test_fabricarray.py +952 -955
warp/tests/test_fast_math.py +60 -54
warp/tests/test_fem.py +1298 -1278
warp/tests/test_fp16.py +128 -130
warp/tests/test_func.py +336 -337
warp/tests/test_generics.py +596 -571
warp/tests/test_grad.py +885 -640
warp/tests/test_grad_customs.py +331 -336
warp/tests/test_hash_grid.py +208 -164
warp/tests/test_import.py +37 -39
warp/tests/test_indexedarray.py +1132 -1134
warp/tests/test_intersect.py +65 -67
warp/tests/test_jax.py +305 -307
warp/tests/test_large.py +169 -164
warp/tests/test_launch.py +352 -354
warp/tests/test_lerp.py +217 -261
warp/tests/test_linear_solvers.py +189 -171
warp/tests/test_lvalue.py +419 -493
warp/tests/test_marching_cubes.py +63 -65
warp/tests/test_mat.py +1799 -1827
warp/tests/test_mat_lite.py +113 -115
warp/tests/test_mat_scalar_ops.py +2905 -2889
warp/tests/test_math.py +124 -193
warp/tests/test_matmul.py +498 -499
warp/tests/test_matmul_lite.py +408 -410
warp/tests/test_mempool.py +186 -190
warp/tests/test_mesh.py +281 -324
warp/tests/test_mesh_query_aabb.py +226 -241
warp/tests/test_mesh_query_point.py +690 -702
warp/tests/test_mesh_query_ray.py +290 -303
warp/tests/test_mlp.py +274 -276
warp/tests/test_model.py +108 -110
warp/tests/test_module_hashing.py +111 -0
warp/tests/test_modules_lite.py +36 -39
warp/tests/test_multigpu.py +161 -163
warp/tests/test_noise.py +244 -248
warp/tests/test_operators.py +248 -250
warp/tests/test_options.py +121 -125
warp/tests/test_peer.py +131 -137
warp/tests/test_pinned.py +76 -78
warp/tests/test_print.py +52 -54
warp/tests/test_quat.py +2084 -2086
warp/tests/test_rand.py +324 -288
warp/tests/test_reload.py +207 -217
warp/tests/test_rounding.py +177 -179
warp/tests/test_runlength_encode.py +188 -190
warp/tests/test_sim_grad.py +241 -0
warp/tests/test_sim_kinematics.py +89 -97
warp/tests/test_smoothstep.py +166 -168
warp/tests/test_snippet.py +303 -266
warp/tests/test_sparse.py +466 -460
warp/tests/test_spatial.py +2146 -2148
warp/tests/test_special_values.py +362 -0
warp/tests/test_streams.py +484 -473
warp/tests/test_struct.py +708 -675
warp/tests/test_tape.py +171 -148
warp/tests/test_torch.py +741 -743
warp/tests/test_transient_module.py +85 -87
warp/tests/test_types.py +554 -659
warp/tests/test_utils.py +488 -499
warp/tests/test_vec.py +1262 -1268
warp/tests/test_vec_lite.py +71 -73
warp/tests/test_vec_scalar_ops.py +2097 -2099
warp/tests/test_verify_fp.py +92 -94
warp/tests/test_volume.py +961 -736
warp/tests/test_volume_write.py +338 -265
warp/tests/unittest_serial.py +38 -37
warp/tests/unittest_suites.py +367 -359
warp/tests/unittest_utils.py +434 -578
warp/tests/unused_test_misc.py +69 -71
warp/tests/walkthrough_debug.py +85 -85
warp/thirdparty/appdirs.py +598 -598
warp/thirdparty/dlpack.py +143 -143
warp/thirdparty/unittest_parallel.py +563 -561
warp/torch.py +321 -295
warp/types.py +4941 -4450
warp/utils.py +1008 -821
{warp_lang-1.0.2.dist-info → warp_lang-1.2.0.dist-info}/LICENSE.md +126 -126
{warp_lang-1.0.2.dist-info → warp_lang-1.2.0.dist-info}/METADATA +365 -400
warp_lang-1.2.0.dist-info/RECORD +359 -0
warp/examples/assets/cube.usda +0 -42
warp/examples/assets/sphere.usda +0 -56
warp/examples/assets/torus.usda +0 -105
warp/examples/fem/example_convection_diffusion_dg0.py +0 -194
warp/native/nanovdb/PNanoVDBWrite.h +0 -295
warp_lang-1.0.2.dist-info/RECORD +0 -352
{warp_lang-1.0.2.dist-info → warp_lang-1.2.0.dist-info}/WHEEL +0 -0
{warp_lang-1.0.2.dist-info → warp_lang-1.2.0.dist-info}/top_level.txt +0 -0

warp/native/volume.h CHANGED Viewed

@@ -1,538 +1,960 @@
-/** Copyright (c) 2022 NVIDIA CORPORATION.  All rights reserved.
- * NVIDIA CORPORATION and its licensors retain all intellectual property
- * and proprietary rights in and to this software, related documentation
- * and any modifications thereto.  Any use, reproduction, disclosure or
- * distribution of this software and related documentation without an express
- * license agreement from NVIDIA CORPORATION is strictly prohibited.
- */
-#pragma once
-#include "builtin.h"
-#define PNANOVDB_C
-#define PNANOVDB_MEMCPY_CUSTOM
-#define pnanovdb_memcpy memcpy
-#include "nanovdb/PNanoVDB.h"
-#include "nanovdb/PNanoVDBWrite.h"
-namespace wp
-{
-namespace volume
-{
-static constexpr int CLOSEST = 0;
-static constexpr int LINEAR = 1;
-// helper functions
-CUDA_CALLABLE inline pnanovdb_buf_t id_to_buffer(uint64_t id)
-{
-    pnanovdb_buf_t buf;
-    buf.data = (uint32_t*)id;
-    return buf;
-}
-CUDA_CALLABLE inline pnanovdb_uint32_t get_grid_type(const pnanovdb_buf_t& buf)
-{
-    const pnanovdb_grid_t *grid_data = (const pnanovdb_grid_t*)buf.data;
-    return grid_data->grid_type;
-}
-CUDA_CALLABLE inline pnanovdb_root_handle_t get_root(const pnanovdb_buf_t& buf,
-                                                     const pnanovdb_grid_handle_t& grid = { 0u })
-{
-    const auto tree = pnanovdb_grid_get_tree(buf, grid);
-    return pnanovdb_tree_get_root(buf, tree);
-}
-} // namespace volume
-CUDA_CALLABLE inline void pnano_read(float& result, pnanovdb_buf_t buf, pnanovdb_root_handle_t root, PNANOVDB_IN(pnanovdb_coord_t) ijk) {
-    const pnanovdb_address_t address = pnanovdb_root_get_value_address(PNANOVDB_GRID_TYPE_FLOAT, buf, root, ijk);
-    result = pnanovdb_read_float(buf, address);
-}
-CUDA_CALLABLE inline void pnano_read(int32_t& result, pnanovdb_buf_t buf, pnanovdb_root_handle_t root, PNANOVDB_IN(pnanovdb_coord_t) ijk) {
-    const pnanovdb_address_t address = pnanovdb_root_get_value_address(PNANOVDB_GRID_TYPE_INT32, buf, root, ijk);
-    result = pnanovdb_read_int32(buf, address);
-}
-CUDA_CALLABLE inline void pnano_read(vec3& result, pnanovdb_buf_t buf, pnanovdb_root_handle_t root, PNANOVDB_IN(pnanovdb_coord_t) ijk) {
-    const pnanovdb_address_t address = pnanovdb_root_get_value_address(PNANOVDB_GRID_TYPE_VEC3F, buf, root, ijk);
-    const pnanovdb_vec3_t v = pnanovdb_read_vec3f(buf, address);
-    result = {v.x, v.y, v.z};
-}
-CUDA_CALLABLE inline void pnano_read(float& result, pnanovdb_buf_t buf, PNANOVDB_INOUT(pnanovdb_readaccessor_t) acc, PNANOVDB_IN(pnanovdb_coord_t) ijk) {
-    pnanovdb_address_t address = pnanovdb_readaccessor_get_value_address(PNANOVDB_GRID_TYPE_FLOAT, buf, acc, ijk);
-    result = pnanovdb_read_float(buf, address);
-}
-CUDA_CALLABLE inline void pnano_read(int32_t& result, pnanovdb_buf_t buf, PNANOVDB_INOUT(pnanovdb_readaccessor_t) acc, PNANOVDB_IN(pnanovdb_coord_t) ijk) {
-    pnanovdb_address_t address = pnanovdb_readaccessor_get_value_address(PNANOVDB_GRID_TYPE_INT32, buf, acc, ijk);
-    result = pnanovdb_read_int32(buf, address);
-}
-CUDA_CALLABLE inline void pnano_read(vec3& result, pnanovdb_buf_t buf, PNANOVDB_INOUT(pnanovdb_readaccessor_t) acc, PNANOVDB_IN(pnanovdb_coord_t) ijk) {
-    pnanovdb_address_t address = pnanovdb_readaccessor_get_value_address(PNANOVDB_GRID_TYPE_VEC3F, buf, acc, ijk);
-    const pnanovdb_vec3_t v = pnanovdb_read_vec3f(buf, address);
-    result = {v.x, v.y, v.z};
-}
-// Sampling the volume at the given index-space coordinates, uvw can be fractional
-template<typename T>
-CUDA_CALLABLE inline T volume_sample(uint64_t id, vec3 uvw, int sampling_mode)
-{
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_root_handle_t root = volume::get_root(buf);
-    const pnanovdb_vec3_t uvw_pnano{ uvw[0], uvw[1], uvw[2] };
-    if (sampling_mode == volume::CLOSEST)
-    {
-        const pnanovdb_coord_t ijk = pnanovdb_vec3_round_to_coord(uvw_pnano);
-        T val;
-        pnano_read(val, buf, root, PNANOVDB_REF(ijk));
-        return val;
-    }
-    else if (sampling_mode == volume::LINEAR)
-    {
-        // NB. linear sampling is not used on int volumes
-        constexpr pnanovdb_coord_t OFFSETS[] = {
-            { 0, 0, 0 }, { 0, 0, 1 }, { 0, 1, 0 }, { 0, 1, 1 }, { 1, 0, 0 }, { 1, 0, 1 }, { 1, 1, 0 }, { 1, 1, 1 },
-        };
-        const pnanovdb_vec3_t ijk_base{ floorf(uvw_pnano.x), floorf(uvw_pnano.y), floorf(uvw_pnano.z) };
-        const pnanovdb_vec3_t ijk_frac{ uvw_pnano.x - ijk_base.x, uvw_pnano.y - ijk_base.y, uvw_pnano.z - ijk_base.z };
-        const pnanovdb_coord_t ijk{ (pnanovdb_int32_t)ijk_base.x, (pnanovdb_int32_t)ijk_base.y, (pnanovdb_int32_t)ijk_base.z };
-        pnanovdb_readaccessor_t accessor;
-        pnanovdb_readaccessor_init(PNANOVDB_REF(accessor), root);
-        T val = 0;
-        const float wx[2]{ 1 - ijk_frac.x, ijk_frac.x };
-        const float wy[2]{ 1 - ijk_frac.y, ijk_frac.y };
-        const float wz[2]{ 1 - ijk_frac.z, ijk_frac.z };
-        for (int idx = 0; idx < 8; ++idx)
-        {
-            const pnanovdb_coord_t& offs = OFFSETS[idx];
-            const pnanovdb_coord_t ijk_shifted = pnanovdb_coord_add(ijk, offs);
-            T v;
-            pnano_read(v, buf, PNANOVDB_REF(accessor), PNANOVDB_REF(ijk_shifted));
-            val = add(val, T(wx[offs.x] * wy[offs.y] * wz[offs.z] * v));
-        }
-        return val;
-    }
-    return 0;
-}
-// Sampling a float volume at the given index-space coordinates, uvw can be fractional
-CUDA_CALLABLE inline float volume_sample_f(uint64_t id, vec3 uvw, int sampling_mode)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_FLOAT) return 0.f;
-    return volume_sample<float>(id, uvw, sampling_mode);
-}
-// Sampling an int volume at the given index-space coordinates, uvw can be fractional
-CUDA_CALLABLE inline int32_t volume_sample_i(uint64_t id, vec3 uvw)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_INT32) return 0;
-    return volume_sample<int32_t>(id, uvw, volume::CLOSEST);
-}
-// Sampling a vector volume at the given index-space coordinates, uvw can be fractional
-CUDA_CALLABLE inline vec3 volume_sample_v(uint64_t id, vec3 uvw, int sampling_mode)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_VEC3F) return vec3(0.f);
-    return volume_sample<vec3>(id, uvw, sampling_mode);
-}
-CUDA_CALLABLE inline void adj_volume_sample_f(
-    uint64_t id, vec3 uvw, int sampling_mode, uint64_t& adj_id, vec3& adj_uvw, int& adj_sampling_mode, const float& adj_ret)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_FLOAT) return;
-    if (sampling_mode != volume::LINEAR) {
-        return; // NOP
-    }
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_root_handle_t root = volume::get_root(buf);
-    const pnanovdb_vec3_t uvw_pnano{ uvw[0], uvw[1], uvw[2] };
-    constexpr pnanovdb_coord_t OFFSETS[] = {
-        { 0, 0, 0 }, { 0, 0, 1 }, { 0, 1, 0 }, { 0, 1, 1 }, { 1, 0, 0 }, { 1, 0, 1 }, { 1, 1, 0 }, { 1, 1, 1 },
-    };
-    const pnanovdb_vec3_t ijk_base{ floorf(uvw_pnano.x), floorf(uvw_pnano.y), floorf(uvw_pnano.z) };
-    const pnanovdb_vec3_t ijk_frac{ uvw_pnano.x - ijk_base.x, uvw_pnano.y - ijk_base.y, uvw_pnano.z - ijk_base.z };
-    const pnanovdb_coord_t ijk{ (pnanovdb_int32_t)ijk_base.x, (pnanovdb_int32_t)ijk_base.y, (pnanovdb_int32_t)ijk_base.z };
-    pnanovdb_readaccessor_t accessor;
-    pnanovdb_readaccessor_init(PNANOVDB_REF(accessor), root);
-    const float wx[2]{ 1 - ijk_frac.x, ijk_frac.x };
-    const float wy[2]{ 1 - ijk_frac.y, ijk_frac.y };
-    const float wz[2]{ 1 - ijk_frac.z, ijk_frac.z };
-    vec3 dphi(0,0,0);
-    for (int idx = 0; idx < 8; ++idx)
-    {
-        const pnanovdb_coord_t& offs = OFFSETS[idx];
-        const pnanovdb_coord_t ijk_shifted = pnanovdb_coord_add(ijk, offs);
-        float v;
-        pnano_read(v, buf, PNANOVDB_REF(accessor), PNANOVDB_REF(ijk_shifted));
-        const vec3 signs(offs.x * 2 - 1, offs.y * 2 - 1, offs.z * 2 - 1);
-        const vec3 grad_w(signs[0] * wy[offs.y] * wz[offs.z], signs[1] * wx[offs.x] * wz[offs.z], signs[2] * wx[offs.x] * wy[offs.y]);
-        dphi = add(dphi, mul(v, grad_w));
-    }
-    adj_uvw += mul(dphi, adj_ret);
-}
-CUDA_CALLABLE inline void adj_volume_sample_v(
-    uint64_t id, vec3 uvw, int sampling_mode, uint64_t& adj_id, vec3& adj_uvw, int& adj_sampling_mode, const vec3& adj_ret)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_VEC3F) return;
-    if (sampling_mode != volume::LINEAR) {
-        return; // NOP
-    }
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_root_handle_t root = volume::get_root(buf);
-    const pnanovdb_vec3_t uvw_pnano{ uvw[0], uvw[1], uvw[2] };
-    constexpr pnanovdb_coord_t OFFSETS[] = {
-        { 0, 0, 0 }, { 0, 0, 1 }, { 0, 1, 0 }, { 0, 1, 1 }, { 1, 0, 0 }, { 1, 0, 1 }, { 1, 1, 0 }, { 1, 1, 1 },
-    };
-    const pnanovdb_vec3_t ijk_base{ floorf(uvw_pnano.x), floorf(uvw_pnano.y), floorf(uvw_pnano.z) };
-    const pnanovdb_vec3_t ijk_frac{ uvw_pnano.x - ijk_base.x, uvw_pnano.y - ijk_base.y, uvw_pnano.z - ijk_base.z };
-    const pnanovdb_coord_t ijk{ (pnanovdb_int32_t)ijk_base.x, (pnanovdb_int32_t)ijk_base.y, (pnanovdb_int32_t)ijk_base.z };
-    pnanovdb_readaccessor_t accessor;
-    pnanovdb_readaccessor_init(PNANOVDB_REF(accessor), root);
-    const float wx[2]{ 1 - ijk_frac.x, ijk_frac.x };
-    const float wy[2]{ 1 - ijk_frac.y, ijk_frac.y };
-    const float wz[2]{ 1 - ijk_frac.z, ijk_frac.z };
-    vec3 dphi[3] = {{0,0,0}, {0,0,0}, {0,0,0}};
-    for (int idx = 0; idx < 8; ++idx)
-    {
-        const pnanovdb_coord_t& offs = OFFSETS[idx];
-        const pnanovdb_coord_t ijk_shifted = pnanovdb_coord_add(ijk, offs);
-        vec3 v;
-        pnano_read(v, buf, PNANOVDB_REF(accessor), PNANOVDB_REF(ijk_shifted));
-        const vec3 signs(offs.x * 2 - 1, offs.y * 2 - 1, offs.z * 2 - 1);
-        const vec3 grad_w(signs[0] * wy[offs.y] * wz[offs.z], signs[1] * wx[offs.x] * wz[offs.z], signs[2] * wx[offs.x] * wy[offs.y]);
-        dphi[0] = add(dphi[0], mul(v[0], grad_w));
-        dphi[1] = add(dphi[1], mul(v[1], grad_w));
-        dphi[2] = add(dphi[2], mul(v[2], grad_w));
-    }
-    for (int k = 0; k < 3; ++k)
-    {
-        adj_uvw[k] += dot(dphi[k], adj_ret);
-    }
-}
-CUDA_CALLABLE inline void adj_volume_sample_i(uint64_t id, vec3 uvw, uint64_t& adj_id, vec3& adj_uvw, const int32_t& adj_ret)
-{
-    // NOP
-}
-// Sampling the volume at the given index-space coordinates, uvw can be fractional
-CUDA_CALLABLE inline float volume_sample_grad_f(uint64_t id, vec3 uvw, int sampling_mode, vec3& grad)
-{
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_root_handle_t root = volume::get_root(buf);
-    const pnanovdb_vec3_t uvw_pnano{ uvw[0], uvw[1], uvw[2] };
-    if (sampling_mode == volume::CLOSEST)
-    {
-        const pnanovdb_coord_t ijk = pnanovdb_vec3_round_to_coord(uvw_pnano);
-        float val;
-        pnano_read(val, buf, root, PNANOVDB_REF(ijk));
-        grad = vec3(0.0f, 0.0f, 0.0f);
-        return val;
-    }
-    else if (sampling_mode == volume::LINEAR)
-    {
-        // NB. linear sampling is not used on int volumes
-        constexpr pnanovdb_coord_t OFFSETS[] = {
-            { 0, 0, 0 }, { 0, 0, 1 }, { 0, 1, 0 }, { 0, 1, 1 }, { 1, 0, 0 }, { 1, 0, 1 }, { 1, 1, 0 }, { 1, 1, 1 },
-        };
-        const pnanovdb_vec3_t ijk_base{ floorf(uvw_pnano.x), floorf(uvw_pnano.y), floorf(uvw_pnano.z) };
-        const pnanovdb_vec3_t ijk_frac{ uvw_pnano.x - ijk_base.x, uvw_pnano.y - ijk_base.y, uvw_pnano.z - ijk_base.z };
-        const pnanovdb_coord_t ijk{ (pnanovdb_int32_t)ijk_base.x, (pnanovdb_int32_t)ijk_base.y, (pnanovdb_int32_t)ijk_base.z };
-        pnanovdb_readaccessor_t accessor;
-        pnanovdb_readaccessor_init(PNANOVDB_REF(accessor), root);
-        float val = 0.0f;
-        const float wx[2]{ 1 - ijk_frac.x, ijk_frac.x };
-        const float wy[2]{ 1 - ijk_frac.y, ijk_frac.y };
-        const float wz[2]{ 1 - ijk_frac.z, ijk_frac.z };
-        const float sign_dx[8] = {-1.0f, -1.0f, -1.0f, -1.0f, 1.0f, 1.0f, 1.0f, 1.0f};
-        const float sign_dy[8] = {-1.0f, -1.0f, 1.0f, 1.0f, -1.0f, -1.0f, 1.0f, 1.0f};
-        const float sign_dz[8] = {-1.0f, 1.0f, -1.0f, 1.0f, -1.0f, 1.0f, -1.0f, 1.0f};
-        float dfdx = 0.0f;
-        float dfdy = 0.0f;
-        float dfdz = 0.0f;
-        for (int idx = 0; idx < 8; ++idx)
-        {
-            const pnanovdb_coord_t& offs = OFFSETS[idx];
-            const pnanovdb_coord_t ijk_shifted = pnanovdb_coord_add(ijk, offs);
-            float v;
-            pnano_read(v, buf, PNANOVDB_REF(accessor), PNANOVDB_REF(ijk_shifted));
-            val = add(val, wx[offs.x] * wy[offs.y] * wz[offs.z] * v);
-            dfdx = add(dfdx, wy[offs.y] * wz[offs.z] * sign_dx[idx] * v);
-            dfdy = add(dfdy, wx[offs.x] * wz[offs.z] * sign_dy[idx] * v);
-            dfdz = add(dfdz, wx[offs.x] * wy[offs.y] * sign_dz[idx] * v);
-        }
-        grad = vec3(dfdx, dfdy, dfdz);
-        return val;
-    }
-    return 0.0f;
-}
-CUDA_CALLABLE inline void adj_volume_sample_grad_f(
-    uint64_t id, vec3 uvw, int sampling_mode, vec3& grad, uint64_t& adj_id, vec3& adj_uvw, int& adj_sampling_mode, vec3& adj_grad, const float& adj_ret)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_FLOAT) return;
-    if (sampling_mode != volume::LINEAR) {
-        return; // NOP
-    }
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_root_handle_t root = volume::get_root(buf);
-    const pnanovdb_vec3_t uvw_pnano{ uvw[0], uvw[1], uvw[2] };
-    constexpr pnanovdb_coord_t OFFSETS[] = {
-        { 0, 0, 0 }, { 0, 0, 1 }, { 0, 1, 0 }, { 0, 1, 1 }, { 1, 0, 0 }, { 1, 0, 1 }, { 1, 1, 0 }, { 1, 1, 1 },
-    };
-    const pnanovdb_vec3_t ijk_base{ floorf(uvw_pnano.x), floorf(uvw_pnano.y), floorf(uvw_pnano.z) };
-    const pnanovdb_vec3_t ijk_frac{ uvw_pnano.x - ijk_base.x, uvw_pnano.y - ijk_base.y, uvw_pnano.z - ijk_base.z };
-    const pnanovdb_coord_t ijk{ (pnanovdb_int32_t)ijk_base.x, (pnanovdb_int32_t)ijk_base.y, (pnanovdb_int32_t)ijk_base.z };
-    pnanovdb_readaccessor_t accessor;
-    pnanovdb_readaccessor_init(PNANOVDB_REF(accessor), root);
-    const float wx[2]{ 1 - ijk_frac.x, ijk_frac.x };
-    const float wy[2]{ 1 - ijk_frac.y, ijk_frac.y };
-    const float wz[2]{ 1 - ijk_frac.z, ijk_frac.z };
-    const float sign_dx[8] = {-1.0f, -1.0f, -1.0f, -1.0f, 1.0f, 1.0f, 1.0f, 1.0f};
-    const float sign_dy[8] = {-1.0f, -1.0f, 1.0f, 1.0f, -1.0f, -1.0f, 1.0f, 1.0f};
-    const float sign_dz[8] = {-1.0f, 1.0f, -1.0f, 1.0f, -1.0f, 1.0f, -1.0f, 1.0f};
-    float dfdxdy = 0.0f;
-    float dfdxdz = 0.0f;
-    float dfdydx = 0.0f;
-    float dfdydz = 0.0f;
-    float dfdzdx = 0.0f;
-    float dfdzdy = 0.0f;
-    vec3 dphi(0,0,0);
-    for (int idx = 0; idx < 8; ++idx)
-    {
-        const pnanovdb_coord_t& offs = OFFSETS[idx];
-        const pnanovdb_coord_t ijk_shifted = pnanovdb_coord_add(ijk, offs);
-        float v;
-        pnano_read(v, buf, PNANOVDB_REF(accessor), PNANOVDB_REF(ijk_shifted));
-        const vec3 signs(offs.x * 2 - 1, offs.y * 2 - 1, offs.z * 2 - 1);
-        const vec3 grad_w(signs[0] * wy[offs.y] * wz[offs.z], signs[1] * wx[offs.x] * wz[offs.z], signs[2] * wx[offs.x] * wy[offs.y]);
-        dphi = add(dphi, mul(v, grad_w));
-        dfdxdy = add(dfdxdy, signs[1] * wz[offs.z] * sign_dx[idx] * v);
-        dfdxdz = add(dfdxdz, wy[offs.y] * signs[2] * sign_dx[idx] * v);
-        dfdydx = add(dfdydx, signs[0] * wz[offs.z] * sign_dy[idx] * v);
-        dfdydz = add(dfdydz, wx[offs.x] * signs[2] * sign_dy[idx] * v);
-        dfdzdx = add(dfdzdx, signs[0] * wy[offs.y] * sign_dz[idx] * v);
-        dfdzdy = add(dfdzdy, wx[offs.x] * signs[1] * sign_dz[idx] * v);
-    }
-    adj_uvw += mul(dphi, adj_ret);
-    adj_uvw[0] += adj_grad[1] * dfdydx + adj_grad[2] * dfdzdx;
-    adj_uvw[1] += adj_grad[0] * dfdxdy + adj_grad[2] * dfdzdy;
-    adj_uvw[2] += adj_grad[0] * dfdxdz + adj_grad[1] * dfdydz;
-}
-CUDA_CALLABLE inline float volume_lookup_f(uint64_t id, int32_t i, int32_t j, int32_t k)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_FLOAT) return 0.f;
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_root_handle_t root = volume::get_root(buf);
-    const pnanovdb_coord_t ijk{ i, j, k };
-    float val;
-    pnano_read(val, buf, root, PNANOVDB_REF(ijk));
-    return val;
-}
-CUDA_CALLABLE inline int32_t volume_lookup_i(uint64_t id, int32_t i, int32_t j, int32_t k)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_INT32) return 0;
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_root_handle_t root = volume::get_root(buf);
-    const pnanovdb_coord_t ijk{ i, j, k };
-    int32_t val;
-    pnano_read(val, buf, root, PNANOVDB_REF(ijk));
-    return val;
-}
-CUDA_CALLABLE inline vec3 volume_lookup_v(uint64_t id, int32_t i, int32_t j, int32_t k)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_VEC3F) return vec3(0.f);
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_root_handle_t root = volume::get_root(buf);
-    const pnanovdb_coord_t ijk{ i, j, k };
-    vec3 val;
-    pnano_read(val, buf, root, PNANOVDB_REF(ijk));
-    return val;
-}
-CUDA_CALLABLE inline void adj_volume_lookup_f(
-    uint64_t id, int32_t i, int32_t j, int32_t k, uint64_t& adj_id, int32_t& adj_i, int32_t& adj_j, int32_t& adj_k, const float& adj_ret)
-{
-    // NOP
-}
-CUDA_CALLABLE inline void adj_volume_lookup_i(
-    uint64_t id, int32_t i, int32_t j, int32_t k, uint64_t& adj_id, int32_t& adj_i, int32_t& adj_j, int32_t& adj_k, const int32_t& adj_ret)
-{
-    // NOP
-}
-CUDA_CALLABLE inline void adj_volume_lookup_v(
-    uint64_t id, int32_t i, int32_t j, int32_t k, uint64_t& adj_id, int32_t& adj_i, int32_t& adj_j, int32_t& adj_k, const vec3& adj_ret)
-{
-    // NOP
-}
-CUDA_CALLABLE inline void volume_store_f(uint64_t id, int32_t i, int32_t j, int32_t k, const float& value)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_FLOAT) return;
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_root_handle_t root = volume::get_root(buf);
-    const pnanovdb_coord_t ijk{ i, j, k };
-    const pnanovdb_address_t address = pnanovdb_root_get_value_address(PNANOVDB_GRID_TYPE_FLOAT, buf, root, PNANOVDB_REF(ijk));
-    pnanovdb_write_float(buf, address, value);
-}
-CUDA_CALLABLE inline void adj_volume_store_f(
-    uint64_t id, int32_t i, int32_t j, int32_t k, const float& value,
-    uint64_t& adj_id, int32_t& adj_i, int32_t& adj_j, int32_t& adj_k, float& adj_value)
-{
-    adj_value += volume_lookup_f(id, i, j, k);
-}
-CUDA_CALLABLE inline void volume_store_v(uint64_t id, int32_t i, int32_t j, int32_t k, const vec3& value)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_VEC3F) return;
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_root_handle_t root = volume::get_root(buf);
-    const pnanovdb_coord_t ijk{ i, j, k };
-    const pnanovdb_address_t address = pnanovdb_root_get_value_address(PNANOVDB_GRID_TYPE_VEC3F, buf, root, PNANOVDB_REF(ijk));
-    const pnanovdb_vec3_t v{ value[0], value[1], value[2] };
-    pnanovdb_write_vec3(buf, address, &v);
-}
-CUDA_CALLABLE inline void adj_volume_store_v(
-    uint64_t id, int32_t i, int32_t j, int32_t k, const vec3& value,
-    uint64_t& adj_id, int32_t& adj_i, int32_t& adj_j, int32_t& adj_k, vec3& adj_value)
-{
-    adj_value = add(adj_value, volume_lookup_v(id, i, j, k));
-}
-CUDA_CALLABLE inline void volume_store_i(uint64_t id, int32_t i, int32_t j, int32_t k, const int32_t& value)
-{
-    if (volume::get_grid_type(volume::id_to_buffer(id)) != PNANOVDB_GRID_TYPE_INT32) return;
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_root_handle_t root = volume::get_root(buf);
-    const pnanovdb_coord_t ijk{ i, j, k };
-    const pnanovdb_address_t address = pnanovdb_root_get_value_address(PNANOVDB_GRID_TYPE_INT32, buf, root, PNANOVDB_REF(ijk));
-    pnanovdb_write_int32(buf, address, value);
-}
-CUDA_CALLABLE inline void adj_volume_store_i(
-    uint64_t id, int32_t i, int32_t j, int32_t k, const int32_t& value,
-    uint64_t& adj_id, int32_t& adj_i, int32_t& adj_j, int32_t& adj_k, int32_t& adj_value)
-{
-    adj_value = add(adj_value, volume_lookup_i(id, i, j, k));
-}
-// Transform position from index space to world space
-CUDA_CALLABLE inline vec3 volume_index_to_world(uint64_t id, vec3 uvw)
-{
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_grid_handle_t grid = { 0u };
-    const pnanovdb_vec3_t pos{ uvw[0], uvw[1], uvw[2] };
-    const pnanovdb_vec3_t xyz = pnanovdb_grid_index_to_worldf(buf, grid, PNANOVDB_REF(pos));
-    return { xyz.x, xyz.y, xyz.z };
-}
-// Transform position from world space to index space
-CUDA_CALLABLE inline vec3 volume_world_to_index(uint64_t id, vec3 xyz)
-{
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_grid_handle_t grid = { 0u };
-    const pnanovdb_vec3_t pos{ xyz[0], xyz[1], xyz[2] };
-    const pnanovdb_vec3_t uvw = pnanovdb_grid_world_to_indexf(buf, grid, PNANOVDB_REF(pos));
-    return { uvw.x, uvw.y, uvw.z };
-}
-CUDA_CALLABLE inline void adj_volume_index_to_world(uint64_t id, vec3 uvw, uint64_t& adj_id, vec3& adj_uvw, const vec3& adj_ret)
-{
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_grid_handle_t grid = { 0u };
-    const pnanovdb_vec3_t pos{ adj_ret[0], adj_ret[1], adj_ret[2] };
-    const pnanovdb_vec3_t xyz = pnanovdb_grid_index_to_world_dirf(buf, grid, PNANOVDB_REF(pos));
-    adj_uvw = add(adj_uvw, vec3{ xyz.x, xyz.y, xyz.z });
-}
-CUDA_CALLABLE inline void adj_volume_world_to_index(uint64_t id, vec3 xyz, uint64_t& adj_id, vec3& adj_xyz, const vec3& adj_ret)
-{
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_grid_handle_t grid = { 0u };
-    const pnanovdb_vec3_t pos{ adj_ret[0], adj_ret[1], adj_ret[2] };
-    const pnanovdb_vec3_t uvw = pnanovdb_grid_world_to_index_dirf(buf, grid, PNANOVDB_REF(pos));
-    adj_xyz = add(adj_xyz, vec3{ uvw.x, uvw.y, uvw.z });
-}
-// Transform direction from index space to world space
-CUDA_CALLABLE inline vec3 volume_index_to_world_dir(uint64_t id, vec3 uvw)
-{
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_grid_handle_t grid = { 0u };
-    const pnanovdb_vec3_t pos{ uvw[0], uvw[1], uvw[2] };
-    const pnanovdb_vec3_t xyz = pnanovdb_grid_index_to_world_dirf(buf, grid, PNANOVDB_REF(pos));
-    return { xyz.x, xyz.y, xyz.z };
-}
-// Transform direction from world space to index space
-CUDA_CALLABLE inline vec3 volume_world_to_index_dir(uint64_t id, vec3 xyz)
-{
-    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
-    const pnanovdb_grid_handle_t grid = { 0u };
-    const pnanovdb_vec3_t pos{ xyz[0], xyz[1], xyz[2] };
-    const pnanovdb_vec3_t uvw = pnanovdb_grid_world_to_index_dirf(buf, grid, PNANOVDB_REF(pos));
-    return { uvw.x, uvw.y, uvw.z };
-}
-CUDA_CALLABLE inline void adj_volume_index_to_world_dir(uint64_t id, vec3 uvw, uint64_t& adj_id, vec3& adj_uvw, const vec3& adj_ret)
-{
-    adj_volume_index_to_world(id, uvw, adj_id, adj_uvw, adj_ret);
-}
-CUDA_CALLABLE inline void adj_volume_world_to_index_dir(uint64_t id, vec3 xyz, uint64_t& adj_id, vec3& adj_xyz, const vec3& adj_ret)
-{
-    adj_volume_world_to_index(id, xyz, adj_id, adj_xyz, adj_ret);
-}
-} // namespace wp
+/** Copyright (c) 2022 NVIDIA CORPORATION.  All rights reserved.
+ * NVIDIA CORPORATION and its licensors retain all intellectual property
+ * and proprietary rights in and to this software, related documentation
+ * and any modifications thereto.  Any use, reproduction, disclosure or
+ * distribution of this software and related documentation without an express
+ * license agreement from NVIDIA CORPORATION is strictly prohibited.
+ */
+#pragma once
+#include "array.h"
+#include "builtin.h"
+#define PNANOVDB_C
+#define PNANOVDB_MEMCPY_CUSTOM
+#define pnanovdb_memcpy memcpy
+#if defined(WP_NO_CRT) && !defined(__CUDACC__)
+// PNanoVDB will try to include <stdint.h> unless __CUDACC_RTC__ is defined
+#define __CUDACC_RTC__
+#endif
+#include "nanovdb/PNanoVDB.h"
+#if defined(WP_NO_CRT) && !defined(__CUDACC__)
+#undef __CUDACC_RTC__
+#endif
+namespace wp
+{
+namespace volume
+{
+// Need to kept in sync with constants in python-side Volume class
+static constexpr int CLOSEST = 0;
+static constexpr int LINEAR = 1;
+// pnanovdb helper function
+CUDA_CALLABLE inline pnanovdb_buf_t id_to_buffer(uint64_t id)
+{
+    pnanovdb_buf_t buf;
+    buf.data = (uint32_t *)id;
+    return buf;
+}
+CUDA_CALLABLE inline pnanovdb_grid_handle_t get_grid(pnanovdb_buf_t buf)
+{
+    return {0u};
+}
+CUDA_CALLABLE inline pnanovdb_uint32_t get_grid_type(pnanovdb_buf_t buf)
+{
+    return pnanovdb_grid_get_grid_type(buf, get_grid(buf));
+}
+CUDA_CALLABLE inline pnanovdb_tree_handle_t get_tree(pnanovdb_buf_t buf)
+{
+    return pnanovdb_grid_get_tree(buf, get_grid(buf));
+}
+CUDA_CALLABLE inline pnanovdb_root_handle_t get_root(pnanovdb_buf_t buf)
+{
+    return pnanovdb_tree_get_root(buf, get_tree(buf));
+}
+template <typename T> struct pnano_traits
+{
+};
+// to add support for more grid types, extend this
+// and update _volume_supported_value_types in builtins.py
+template <> struct pnano_traits<int32_t>
+{
+    static constexpr int GRID_TYPE = PNANOVDB_GRID_TYPE_INT32;
+};
+template <> struct pnano_traits<int64_t>
+{
+    static constexpr int GRID_TYPE = PNANOVDB_GRID_TYPE_INT64;
+};
+template <> struct pnano_traits<uint32_t>
+{
+    static constexpr int GRID_TYPE = PNANOVDB_GRID_TYPE_UINT32;
+};
+template <> struct pnano_traits<float>
+{
+    static constexpr int GRID_TYPE = PNANOVDB_GRID_TYPE_FLOAT;
+};
+template <> struct pnano_traits<double>
+{
+    static constexpr int GRID_TYPE = PNANOVDB_GRID_TYPE_DOUBLE;
+};
+template <> struct pnano_traits<vec3f>
+{
+    static constexpr int GRID_TYPE = PNANOVDB_GRID_TYPE_VEC3F;
+};
+template <> struct pnano_traits<vec3d>
+{
+    static constexpr int GRID_TYPE = PNANOVDB_GRID_TYPE_VEC3D;
+};
+template <> struct pnano_traits<vec4f>
+{
+    static constexpr int GRID_TYPE = PNANOVDB_GRID_TYPE_VEC4F;
+};
+template <> struct pnano_traits<vec4d>
+{
+    static constexpr int GRID_TYPE = PNANOVDB_GRID_TYPE_VEC4D;
+};
+// common accessors over various grid types
+// WARNING: implementation below only for >=32b values, but that's the case for all types above
+// for smaller types add a specialization
+template <typename T> CUDA_CALLABLE inline void pnano_read(T &result, pnanovdb_buf_t buf, pnanovdb_address_t address)
+{
+    result = *reinterpret_cast<const T *>(buf.data + (address.byte_offset >> 2));
+}
+template <typename T>
+CUDA_CALLABLE inline void pnano_write(const T &value, pnanovdb_buf_t buf, pnanovdb_address_t address)
+{
+    *reinterpret_cast<T *>(buf.data + (address.byte_offset >> 2)) = value;
+}
+template <typename T>
+CUDA_CALLABLE inline void pnano_read(T &result, pnanovdb_buf_t buf, pnanovdb_root_handle_t root,
+                                     PNANOVDB_IN(pnanovdb_coord_t) ijk)
+{
+    using traits = pnano_traits<T>;
+    const pnanovdb_address_t address = pnanovdb_root_get_value_address(traits::GRID_TYPE, buf, root, ijk);
+    pnano_read<T>(result, buf, address);
+}
+template <typename T>
+CUDA_CALLABLE inline void pnano_read(T &result, pnanovdb_buf_t buf, PNANOVDB_INOUT(pnanovdb_readaccessor_t) acc,
+                                     PNANOVDB_IN(pnanovdb_coord_t) ijk)
+{
+    using traits = pnano_traits<T>;
+    // pnanovdb_address_t address = pnanovdb_readaccessor_get_value_address(traits::GRID_TYPE, buf, acc, ijk);
+    pnanovdb_uint32_t level;
+    const pnanovdb_address_t address =
+        pnanovdb_readaccessor_get_value_address_and_level(traits::GRID_TYPE, buf, acc, ijk, PNANOVDB_REF(level));
+    pnano_read<T>(result, buf, address);
+}
+/// regular grid accessor (values stored in leafs)
+struct value_accessor_base
+{
+    pnanovdb_buf_t buf;
+    pnanovdb_root_handle_t root;
+    pnanovdb_readaccessor_t accessor;
+    explicit inline CUDA_CALLABLE value_accessor_base(const pnanovdb_buf_t buf) : buf(buf), root(get_root(buf))
+    {
+    }
+    CUDA_CALLABLE inline void init_cache()
+    {
+        pnanovdb_readaccessor_init(PNANOVDB_REF(accessor), root);
+    }
+};
+template <typename T> struct leaf_value_accessor : value_accessor_base
+{
+    using ValueType = T;
+    explicit inline CUDA_CALLABLE leaf_value_accessor(const pnanovdb_buf_t buf) : value_accessor_base(buf)
+    {
+    }
+    CUDA_CALLABLE inline bool is_valid() const
+    {
+        return get_grid_type(buf) == pnano_traits<T>::GRID_TYPE;
+    }
+    CUDA_CALLABLE inline T read_single(const pnanovdb_coord_t &ijk) const
+    {
+        T val;
+        pnano_read(val, buf, root, PNANOVDB_REF(ijk));
+        return val;
+    }
+    CUDA_CALLABLE inline T read_cache(const pnanovdb_coord_t &ijk)
+    {
+        T val;
+        pnano_read(val, buf, PNANOVDB_REF(accessor), PNANOVDB_REF(ijk));
+        return val;
+    }
+    CUDA_CALLABLE inline void adj_read_single(const pnanovdb_coord_t &ijk, const T &adj_ret)
+    {
+        // NOP
+    }
+    CUDA_CALLABLE inline void adj_read_cache(const pnanovdb_coord_t &ijk, const T &adj_ret)
+    {
+        // NOP
+    }
+};
+CUDA_CALLABLE inline pnanovdb_uint64_t leaf_regular_get_voxel_index(pnanovdb_buf_t buf,
+                                                                    pnanovdb_address_t value_address,
+                                                                    PNANOVDB_IN(pnanovdb_coord_t) ijk)
+{
+    // compute leaf index from value address, assuming all leaf voxels are allocated
+    const pnanovdb_grid_type_t grid_type = get_grid_type(buf);
+    const pnanovdb_uint32_t n = pnanovdb_leaf_coord_to_offset(ijk);
+    const pnanovdb_uint32_t byte_offset = PNANOVDB_GRID_TYPE_GET(grid_type, leaf_off_table) +
+                                          ((PNANOVDB_GRID_TYPE_GET(grid_type, value_stride_bits) * n) >> 3u);
+    const pnanovdb_address_t leaf_address = pnanovdb_address_offset_neg(value_address, byte_offset);
+    const pnanovdb_uint64_t first_leaf_offset = pnanovdb_tree_get_node_offset_leaf(buf, get_tree(buf));
+    const pnanovdb_uint32_t leaf_size = PNANOVDB_GRID_TYPE_GET(grid_type, leaf_size);
+    const pnanovdb_uint64_t leaf_index = (leaf_address.byte_offset - first_leaf_offset) / leaf_size;
+    return leaf_index * PNANOVDB_LEAF_TABLE_COUNT + n + 1;
+}
+CUDA_CALLABLE inline pnanovdb_uint64_t get_grid_voxel_index(pnanovdb_grid_type_t grid_type, pnanovdb_buf_t buf,
+                                                            pnanovdb_address_t value_address,
+                                                            const pnanovdb_coord_t &ijk)
+{
+    switch (grid_type)
+    {
+    case PNANOVDB_GRID_TYPE_INDEX:
+        return pnanovdb_leaf_index_get_value_index(buf, value_address, PNANOVDB_REF(ijk));
+    case PNANOVDB_GRID_TYPE_ONINDEX:
+        return pnanovdb_leaf_onindex_get_value_index(buf, value_address, PNANOVDB_REF(ijk));
+    case PNANOVDB_GRID_TYPE_INDEXMASK:
+        return pnanovdb_leaf_indexmask_get_value_index(buf, value_address, PNANOVDB_REF(ijk));
+    case PNANOVDB_GRID_TYPE_ONINDEXMASK:
+        return pnanovdb_leaf_onindexmask_get_value_index(buf, value_address, PNANOVDB_REF(ijk));
+    default:
+        return leaf_regular_get_voxel_index(buf, value_address, PNANOVDB_REF(ijk));
+    }
+};
+/// index grid accessor
+template <typename T> struct index_value_accessor : value_accessor_base
+{
+    using ValueType = T;
+    pnanovdb_grid_type_t grid_type;
+    array_t<T> data;
+    const T &background;
+    T *adj_background;
+    explicit inline CUDA_CALLABLE index_value_accessor(const pnanovdb_buf_t buf, const array_t<T> &data,
+                                                       const T &background, T *adj_background = nullptr)
+        : value_accessor_base(buf), grid_type(get_grid_type(buf)), data(data), background(background),
+          adj_background(adj_background)
+    {
+    }
+    CUDA_CALLABLE inline bool is_valid() const
+    {
+        // Accessor is valid for all grid types
+        return true;
+    }
+    CUDA_CALLABLE inline T read_single(const pnanovdb_coord_t &ijk) const
+    {
+        pnanovdb_uint32_t level;
+        const pnanovdb_address_t address =
+            pnanovdb_root_get_value_address_and_level(grid_type, buf, root, PNANOVDB_REF(ijk), PNANOVDB_REF(level));
+        return read_at(level, address, ijk);
+    }
+    CUDA_CALLABLE inline T read_cache(const pnanovdb_coord_t &ijk)
+    {
+        pnanovdb_uint32_t level;
+        const pnanovdb_address_t address = pnanovdb_readaccessor_get_value_address_and_level(
+            grid_type, buf, PNANOVDB_REF(accessor), PNANOVDB_REF(ijk), PNANOVDB_REF(level));
+        return read_at(level, address, ijk);
+    }
+    CUDA_CALLABLE inline T read_at(pnanovdb_uint32_t level, const pnanovdb_address_t address,
+                                   const pnanovdb_coord_t &ijk) const
+    {
+        if (level == 0)
+        {
+            pnanovdb_uint64_t voxel_index = get_grid_voxel_index(grid_type, buf, address, ijk);
+            if (voxel_index > 0)
+            {
+                return *wp::address(data, voxel_index - 1);
+            }
+        }
+        return background;
+    }
+    CUDA_CALLABLE inline void adj_read_single(const pnanovdb_coord_t &ijk, const T &adj_ret)
+    {
+        pnanovdb_uint32_t level;
+        const pnanovdb_address_t address =
+            pnanovdb_root_get_value_address_and_level(grid_type, buf, root, PNANOVDB_REF(ijk), PNANOVDB_REF(level));
+        adj_read_at(level, address, ijk, adj_ret);
+    }
+    CUDA_CALLABLE inline void adj_read_cache(const pnanovdb_coord_t &ijk, const T &adj_ret)
+    {
+        pnanovdb_uint32_t level;
+        const pnanovdb_address_t address = pnanovdb_readaccessor_get_value_address_and_level(
+            grid_type, buf, PNANOVDB_REF(accessor), PNANOVDB_REF(ijk), PNANOVDB_REF(level));
+        adj_read_at(level, address, ijk, adj_ret);
+    }
+    CUDA_CALLABLE inline void adj_read_at(pnanovdb_uint32_t level, const pnanovdb_address_t address,
+                                          const pnanovdb_coord_t &ijk, const T &adj_ret) const
+    {
+        if (level == 0)
+        {
+            pnanovdb_uint64_t voxel_index = get_grid_voxel_index(grid_type, buf, address, ijk);
+            if (voxel_index > 0)
+            {
+                adj_atomic_add(&index_grad(data, voxel_index - 1), adj_ret);
+                return;
+            }
+        }
+        *adj_background += adj_ret;
+    }
+};
+CUDA_CALLABLE inline pnanovdb_coord_t vec3_round_to_coord(const pnanovdb_vec3_t a)
+{
+    pnanovdb_coord_t v;
+    v.x = pnanovdb_float_to_int32(roundf(a.x));
+    v.y = pnanovdb_float_to_int32(roundf(a.y));
+    v.z = pnanovdb_float_to_int32(roundf(a.z));
+    return v;
+}
+template <typename T> struct val_traits
+{
+    using grad_t = vec_t<3, T>;
+    using scalar_t = T;
+    // multiplies the gradient on the right
+    // needs to be specialized for scalar types as gradient is stored as column rather than row vector
+    static CUDA_CALLABLE inline T rmul(const grad_t &grad, const vec_t<3, scalar_t> &rhs)
+    {
+        return dot(grad, rhs);
+    }
+};
+template <unsigned Length, typename T> struct val_traits<vec_t<Length, T>>
+{
+    using grad_t = mat_t<3, Length, T>;
+    using scalar_t = T;
+    static CUDA_CALLABLE inline vec_t<Length, T> rmul(const grad_t &grad, const vec_t<3, scalar_t> &rhs)
+    {
+        return mul(grad, rhs);
+    }
+};
+// Sampling the volume at the given index-space coordinates, uvw can be fractional
+template <typename Accessor>
+CUDA_CALLABLE inline typename Accessor::ValueType volume_sample(Accessor &accessor, vec3 uvw, int sampling_mode)
+{
+    using T = typename Accessor::ValueType;
+    using w_t = typename val_traits<T>::scalar_t;
+    if (!accessor.is_valid())
+    {
+        return 0;
+    }
+    const pnanovdb_buf_t buf = accessor.buf;
+    const pnanovdb_vec3_t uvw_pnano{uvw[0], uvw[1], uvw[2]};
+    if (sampling_mode == CLOSEST)
+    {
+        const pnanovdb_coord_t ijk = vec3_round_to_coord(uvw_pnano);
+        return accessor.read_single(ijk);
+    }
+    else if (sampling_mode == LINEAR)
+    {
+        // NB. linear sampling is not used on int volumes
+        constexpr pnanovdb_coord_t OFFSETS[] = {
+            {0, 0, 0}, {0, 0, 1}, {0, 1, 0}, {0, 1, 1}, {1, 0, 0}, {1, 0, 1}, {1, 1, 0}, {1, 1, 1},
+        };
+        const pnanovdb_vec3_t ijk_base{floorf(uvw_pnano.x), floorf(uvw_pnano.y), floorf(uvw_pnano.z)};
+        const pnanovdb_vec3_t ijk_frac{uvw_pnano.x - ijk_base.x, uvw_pnano.y - ijk_base.y, uvw_pnano.z - ijk_base.z};
+        const pnanovdb_coord_t ijk{(pnanovdb_int32_t)ijk_base.x, (pnanovdb_int32_t)ijk_base.y,
+                                   (pnanovdb_int32_t)ijk_base.z};
+        accessor.init_cache();
+        T val = 0;
+        const float wx[2]{1 - ijk_frac.x, ijk_frac.x};
+        const float wy[2]{1 - ijk_frac.y, ijk_frac.y};
+        const float wz[2]{1 - ijk_frac.z, ijk_frac.z};
+        for (int idx = 0; idx < 8; ++idx)
+        {
+            const pnanovdb_coord_t &offs = OFFSETS[idx];
+            const pnanovdb_coord_t ijk_shifted = pnanovdb_coord_add(ijk, offs);
+            const T v = accessor.read_cache(ijk_shifted);
+            const w_t w = wx[offs.x] * wy[offs.y] * wz[offs.z];
+            val = add(val, w * v);
+        }
+        return val;
+    }
+    return 0;
+}
+template <typename Accessor>
+CUDA_CALLABLE inline void adj_volume_sample(Accessor &accessor, vec3 uvw, int sampling_mode, vec3 &adj_uvw,
+                                            const typename Accessor::ValueType &adj_ret)
+{
+    // TODO: accessor data gradients
+    using T = typename Accessor::ValueType;
+    using w_t = typename val_traits<T>::scalar_t;
+    using w_grad_t = vec_t<3, w_t>;
+    if (!accessor.is_valid())
+    {
+        return;
+    }
+    const pnanovdb_buf_t buf = accessor.buf;
+    const pnanovdb_vec3_t uvw_pnano{uvw[0], uvw[1], uvw[2]};
+    if (sampling_mode != LINEAR)
+    {
+        const pnanovdb_coord_t ijk = vec3_round_to_coord(uvw_pnano);
+        accessor.adj_read_single(ijk, adj_ret);
+        return;
+    }
+    constexpr pnanovdb_coord_t OFFSETS[] = {
+        {0, 0, 0}, {0, 0, 1}, {0, 1, 0}, {0, 1, 1}, {1, 0, 0}, {1, 0, 1}, {1, 1, 0}, {1, 1, 1},
+    };
+    const pnanovdb_vec3_t ijk_base{floorf(uvw_pnano.x), floorf(uvw_pnano.y), floorf(uvw_pnano.z)};
+    const pnanovdb_vec3_t ijk_frac{uvw_pnano.x - ijk_base.x, uvw_pnano.y - ijk_base.y, uvw_pnano.z - ijk_base.z};
+    const pnanovdb_coord_t ijk{(pnanovdb_int32_t)ijk_base.x, (pnanovdb_int32_t)ijk_base.y,
+                               (pnanovdb_int32_t)ijk_base.z};
+    accessor.init_cache();
+    const float wx[2]{1 - ijk_frac.x, ijk_frac.x};
+    const float wy[2]{1 - ijk_frac.y, ijk_frac.y};
+    const float wz[2]{1 - ijk_frac.z, ijk_frac.z};
+    for (int idx = 0; idx < 8; ++idx)
+    {
+        const pnanovdb_coord_t &offs = OFFSETS[idx];
+        const pnanovdb_coord_t ijk_shifted = pnanovdb_coord_add(ijk, offs);
+        const T v = accessor.read_cache(ijk_shifted);
+        const vec3 signs(offs.x * 2 - 1, offs.y * 2 - 1, offs.z * 2 - 1);
+        const w_t w = wx[offs.x] * wy[offs.y] * wz[offs.z];
+        const w_grad_t grad_w(signs[0] * wy[offs.y] * wz[offs.z], signs[1] * wx[offs.x] * wz[offs.z],
+                              signs[2] * wx[offs.x] * wy[offs.y]);
+        adj_uvw += vec3(mul(w_t(dot(v, adj_ret)), grad_w));
+        const T adj_v = w * adj_ret;
+        accessor.adj_read_cache(ijk_shifted, adj_v);
+    }
+}
+// Sampling the volume at the given index-space coordinates, uvw can be fractional
+template <typename Accessor>
+CUDA_CALLABLE inline typename Accessor::ValueType volume_sample_grad(
+    Accessor &accessor, vec3 uvw, int sampling_mode, typename val_traits<typename Accessor::ValueType>::grad_t &grad)
+{
+    using T = typename Accessor::ValueType;
+    using grad_T = typename val_traits<T>::grad_t;
+    using w_t = typename val_traits<T>::scalar_t;
+    using w_grad_t = vec_t<3, w_t>;
+    grad = grad_T{};
+    if (!accessor.is_valid())
+    {
+        return 0;
+    }
+    const pnanovdb_buf_t buf = accessor.buf;
+    const pnanovdb_vec3_t uvw_pnano{uvw[0], uvw[1], uvw[2]};
+    if (sampling_mode == CLOSEST)
+    {
+        const pnanovdb_coord_t ijk = vec3_round_to_coord(uvw_pnano);
+        return accessor.read_single(ijk);
+    }
+    else if (sampling_mode == LINEAR)
+    {
+        // NB. linear sampling is not used on int volumes
+        constexpr pnanovdb_coord_t OFFSETS[] = {
+            {0, 0, 0}, {0, 0, 1}, {0, 1, 0}, {0, 1, 1}, {1, 0, 0}, {1, 0, 1}, {1, 1, 0}, {1, 1, 1},
+        };
+        const pnanovdb_vec3_t ijk_base{floorf(uvw_pnano.x), floorf(uvw_pnano.y), floorf(uvw_pnano.z)};
+        const pnanovdb_vec3_t ijk_frac{uvw_pnano.x - ijk_base.x, uvw_pnano.y - ijk_base.y, uvw_pnano.z - ijk_base.z};
+        const pnanovdb_coord_t ijk{(pnanovdb_int32_t)ijk_base.x, (pnanovdb_int32_t)ijk_base.y,
+                                   (pnanovdb_int32_t)ijk_base.z};
+        accessor.init_cache();
+        T val = 0;
+        const float wx[2]{1 - ijk_frac.x, ijk_frac.x};
+        const float wy[2]{1 - ijk_frac.y, ijk_frac.y};
+        const float wz[2]{1 - ijk_frac.z, ijk_frac.z};
+        for (int idx = 0; idx < 8; ++idx)
+        {
+            const pnanovdb_coord_t &offs = OFFSETS[idx];
+            const pnanovdb_coord_t ijk_shifted = pnanovdb_coord_add(ijk, offs);
+            const T v = accessor.read_cache(ijk_shifted);
+            const vec3 signs(offs.x * 2 - 1, offs.y * 2 - 1, offs.z * 2 - 1);
+            const w_t w = wx[offs.x] * wy[offs.y] * wz[offs.z];
+            const w_grad_t grad_w(signs[0] * wy[offs.y] * wz[offs.z], signs[1] * wx[offs.x] * wz[offs.z],
+                                  signs[2] * wx[offs.x] * wy[offs.y]);
+            val = add(val, w * v);
+            grad += outer(v, grad_w);
+        }
+        return val;
+    }
+    return 0;
+}
+template <typename Accessor>
+CUDA_CALLABLE inline void adj_volume_sample_grad(Accessor &accessor, vec3 uvw, int sampling_mode,
+                                                 typename val_traits<typename Accessor::ValueType>::grad_t &grad,
+                                                 vec3 &adj_uvw,
+                                                 typename val_traits<typename Accessor::ValueType>::grad_t &adj_grad,
+                                                 const typename Accessor::ValueType &adj_ret)
+{
+    // TODO: accessor data gradients
+    using T = typename Accessor::ValueType;
+    using grad_T = typename val_traits<T>::grad_t;
+    using w_t = typename val_traits<T>::scalar_t;
+    using w_grad_t = vec_t<3, w_t>;
+    using w_hess_t = mat_t<3, 3, w_t>;
+    if (!accessor.is_valid())
+    {
+        return;
+    }
+    const pnanovdb_buf_t buf = accessor.buf;
+    const pnanovdb_vec3_t uvw_pnano{uvw[0], uvw[1], uvw[2]};
+    if (sampling_mode != LINEAR)
+    {
+        const pnanovdb_coord_t ijk = vec3_round_to_coord(uvw_pnano);
+        accessor.adj_read_single(ijk, adj_ret);
+        return;
+    }
+    constexpr pnanovdb_coord_t OFFSETS[] = {
+        {0, 0, 0}, {0, 0, 1}, {0, 1, 0}, {0, 1, 1}, {1, 0, 0}, {1, 0, 1}, {1, 1, 0}, {1, 1, 1},
+    };
+    const pnanovdb_vec3_t ijk_base{floorf(uvw_pnano.x), floorf(uvw_pnano.y), floorf(uvw_pnano.z)};
+    const pnanovdb_vec3_t ijk_frac{uvw_pnano.x - ijk_base.x, uvw_pnano.y - ijk_base.y, uvw_pnano.z - ijk_base.z};
+    const pnanovdb_coord_t ijk{(pnanovdb_int32_t)ijk_base.x, (pnanovdb_int32_t)ijk_base.y,
+                               (pnanovdb_int32_t)ijk_base.z};
+    accessor.init_cache();
+    const float wx[2]{1 - ijk_frac.x, ijk_frac.x};
+    const float wy[2]{1 - ijk_frac.y, ijk_frac.y};
+    const float wz[2]{1 - ijk_frac.z, ijk_frac.z};
+    for (int idx = 0; idx < 8; ++idx)
+    {
+        const pnanovdb_coord_t &offs = OFFSETS[idx];
+        const pnanovdb_coord_t ijk_shifted = pnanovdb_coord_add(ijk, offs);
+        const T v = accessor.read_cache(ijk_shifted);
+        const vec3 signs(offs.x * 2 - 1, offs.y * 2 - 1, offs.z * 2 - 1);
+        const w_t w = wx[offs.x] * wy[offs.y] * wz[offs.z];
+        const w_grad_t grad_w(signs[0] * wy[offs.y] * wz[offs.z], signs[1] * wx[offs.x] * wz[offs.z],
+                              signs[2] * wx[offs.x] * wy[offs.y]);
+        adj_uvw += vec3(mul(w_t(dot(v, adj_ret)), grad_w));
+        const w_hess_t hess_w(0.0, signs[1] * signs[0] * wz[offs.z], signs[2] * signs[0] * wy[offs.y],
+                              signs[0] * signs[1] * wz[offs.z], 0.0, signs[2] * signs[1] * wx[offs.x],
+                              signs[0] * signs[2] * wy[offs.y], signs[1] * signs[2] * wx[offs.x], 0.0);
+        adj_uvw += vec3(mul(mul(v, adj_grad), hess_w));
+        const T adj_v = w * adj_ret + val_traits<T>::rmul(adj_grad, grad_w);
+        accessor.adj_read_cache(ijk_shifted, adj_v);
+    }
+}
+} // namespace volume
+  // namespace volume
+// exposed kernel builtins
+// volume_sample
+template <typename T> CUDA_CALLABLE inline T volume_sample(uint64_t id, vec3 uvw, int sampling_mode)
+{
+    volume::leaf_value_accessor<T> accessor(volume::id_to_buffer(id));
+    return volume::volume_sample(accessor, uvw, sampling_mode);
+}
+template <typename T>
+CUDA_CALLABLE inline void adj_volume_sample(uint64_t id, vec3 uvw, int sampling_mode, uint64_t &adj_id, vec3 &adj_uvw,
+                                            int &adj_sampling_mode, const T &adj_ret)
+{
+    volume::leaf_value_accessor<T> accessor(volume::id_to_buffer(id));
+    volume::adj_volume_sample(accessor, uvw, sampling_mode, adj_uvw, adj_ret);
+}
+template <typename T>
+CUDA_CALLABLE inline T volume_sample_grad(uint64_t id, vec3 uvw, int sampling_mode,
+                                          typename volume::val_traits<T>::grad_t &grad)
+{
+    volume::leaf_value_accessor<T> accessor(volume::id_to_buffer(id));
+    return volume::volume_sample_grad(accessor, uvw, sampling_mode, grad);
+}
+template <typename T>
+CUDA_CALLABLE inline void adj_volume_sample_grad(uint64_t id, vec3 uvw, int sampling_mode,
+                                                 typename volume::val_traits<T>::grad_t &grad, uint64_t &adj_id,
+                                                 vec3 &adj_uvw, int &adj_sampling_mode,
+                                                 typename volume::val_traits<T>::grad_t &adj_grad, const T &adj_ret)
+{
+    volume::leaf_value_accessor<T> accessor(volume::id_to_buffer(id));
+    volume::adj_volume_sample_grad(accessor, uvw, sampling_mode, grad, adj_uvw, adj_grad, adj_ret);
+}
+// Sampling a float volume at the given index-space coordinates, uvw can be fractional
+CUDA_CALLABLE inline float volume_sample_f(uint64_t id, vec3 uvw, int sampling_mode)
+{
+    return volume_sample<float>(id, uvw, sampling_mode);
+}
+// Sampling an int volume at the given index-space coordinates, uvw can be fractional
+CUDA_CALLABLE inline int32_t volume_sample_i(uint64_t id, vec3 uvw)
+{
+    return volume_sample<int32_t>(id, uvw, volume::CLOSEST);
+}
+// Sampling a vector volume at the given index-space coordinates, uvw can be fractional
+CUDA_CALLABLE inline vec3 volume_sample_v(uint64_t id, vec3 uvw, int sampling_mode)
+{
+    return volume_sample<vec3>(id, uvw, sampling_mode);
+}
+CUDA_CALLABLE inline void adj_volume_sample_f(uint64_t id, vec3 uvw, int sampling_mode, uint64_t &adj_id, vec3 &adj_uvw,
+                                              int &adj_sampling_mode, const float &adj_ret)
+{
+    adj_volume_sample(id, uvw, sampling_mode, adj_id, adj_uvw, adj_sampling_mode, adj_ret);
+}
+CUDA_CALLABLE inline void adj_volume_sample_v(uint64_t id, vec3 uvw, int sampling_mode, uint64_t &adj_id, vec3 &adj_uvw,
+                                              int &adj_sampling_mode, const vec3 &adj_ret)
+{
+    adj_volume_sample(id, uvw, sampling_mode, adj_id, adj_uvw, adj_sampling_mode, adj_ret);
+}
+CUDA_CALLABLE inline void adj_volume_sample_i(uint64_t id, vec3 uvw, uint64_t &adj_id, vec3 &adj_uvw,
+                                              const int32_t &adj_ret)
+{
+    // NOP
+}
+// Sampling the volume at the given index-space coordinates, uvw can be fractional
+CUDA_CALLABLE inline float volume_sample_grad_f(uint64_t id, vec3 uvw, int sampling_mode, vec3 &grad)
+{
+    return volume_sample_grad<float>(id, uvw, sampling_mode, grad);
+}
+CUDA_CALLABLE inline void adj_volume_sample_grad_f(uint64_t id, vec3 uvw, int sampling_mode, vec3 &grad,
+                                                   uint64_t &adj_id, vec3 &adj_uvw, int &adj_sampling_mode,
+                                                   vec3 &adj_grad, const float &adj_ret)
+{
+    adj_volume_sample_grad<float>(id, uvw, sampling_mode, grad, adj_id, adj_uvw, adj_sampling_mode, adj_grad, adj_ret);
+}
+// volume_sample_index
+template <typename T>
+CUDA_CALLABLE inline T volume_sample_index(uint64_t id, vec3 uvw, int sampling_mode, const array_t<T> &voxel_data,
+                                           const T &background)
+{
+    volume::index_value_accessor<T> accessor(volume::id_to_buffer(id), voxel_data, background);
+    return volume::volume_sample(accessor, uvw, sampling_mode);
+}
+template <typename T>
+CUDA_CALLABLE inline void adj_volume_sample_index(uint64_t id, vec3 uvw, int sampling_mode,
+                                                  const array_t<T> &voxel_data, const T &background, uint64_t &adj_id,
+                                                  vec3 &adj_uvw, int &adj_sampling_mode, array_t<T> &adj_voxel_data,
+                                                  T &adj_background, const T &adj_ret)
+{
+    volume::index_value_accessor<T> accessor(volume::id_to_buffer(id), voxel_data, background, &adj_background);
+    volume::adj_volume_sample(accessor, uvw, sampling_mode, adj_uvw, adj_ret);
+}
+template <typename T>
+CUDA_CALLABLE inline T volume_sample_grad_index(uint64_t id, vec3 uvw, int sampling_mode, const array_t<T> &voxel_data,
+                                                const T &background, typename volume::val_traits<T>::grad_t &grad)
+{
+    volume::index_value_accessor<T> accessor(volume::id_to_buffer(id), voxel_data, background);
+    return volume::volume_sample_grad(accessor, uvw, sampling_mode, grad);
+}
+template <typename T>
+CUDA_CALLABLE inline void adj_volume_sample_grad_index(
+    uint64_t id, vec3 uvw, int sampling_mode, const array_t<T> &voxel_data, const T &background,
+    typename volume::val_traits<T>::grad_t &grad, uint64_t &adj_id, vec3 &adj_uvw, int &adj_sampling_mode,
+    array_t<T> &adj_voxel_data, T &adj_background, typename volume::val_traits<T>::grad_t &adj_grad, const T &adj_ret)
+{
+    volume::index_value_accessor<T> accessor(volume::id_to_buffer(id), voxel_data, background, &adj_background);
+    volume::adj_volume_sample_grad(accessor, uvw, sampling_mode, grad, adj_uvw, adj_grad, adj_ret);
+}
+// volume_lookup
+template <typename T> CUDA_CALLABLE inline T volume_lookup(uint64_t id, int32_t i, int32_t j, int32_t k)
+{
+    using traits = volume::pnano_traits<T>;
+    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
+    if (volume::get_grid_type(buf) != traits::GRID_TYPE)
+        return 0;
+    const pnanovdb_root_handle_t root = volume::get_root(buf);
+    const pnanovdb_coord_t ijk{i, j, k};
+    T val;
+    volume::pnano_read(val, buf, root, PNANOVDB_REF(ijk));
+    return val;
+}
+template <typename T>
+CUDA_CALLABLE inline void adj_volume_lookup(uint64_t id, int32_t i, int32_t j, int32_t k, uint64_t &adj_id,
+                                            int32_t &adj_i, int32_t &adj_j, int32_t &adj_k, const T &adj_ret)
+{
+    // NOP -- adjoint of grid values is not available
+}
+CUDA_CALLABLE inline float volume_lookup_f(uint64_t id, int32_t i, int32_t j, int32_t k)
+{
+    return volume_lookup<float>(id, i, j, k);
+}
+CUDA_CALLABLE inline int32_t volume_lookup_i(uint64_t id, int32_t i, int32_t j, int32_t k)
+{
+    return volume_lookup<int32_t>(id, i, j, k);
+}
+CUDA_CALLABLE inline vec3 volume_lookup_v(uint64_t id, int32_t i, int32_t j, int32_t k)
+{
+    return volume_lookup<vec3>(id, i, j, k);
+}
+CUDA_CALLABLE inline void adj_volume_lookup_f(uint64_t id, int32_t i, int32_t j, int32_t k, uint64_t &adj_id,
+                                              int32_t &adj_i, int32_t &adj_j, int32_t &adj_k, const float &adj_ret)
+{
+    adj_volume_lookup(id, i, j, k, adj_id, adj_i, adj_j, adj_k, adj_ret);
+}
+CUDA_CALLABLE inline void adj_volume_lookup_i(uint64_t id, int32_t i, int32_t j, int32_t k, uint64_t &adj_id,
+                                              int32_t &adj_i, int32_t &adj_j, int32_t &adj_k, const int32_t &adj_ret)
+{
+    adj_volume_lookup(id, i, j, k, adj_id, adj_i, adj_j, adj_k, adj_ret);
+}
+CUDA_CALLABLE inline void adj_volume_lookup_v(uint64_t id, int32_t i, int32_t j, int32_t k, uint64_t &adj_id,
+                                              int32_t &adj_i, int32_t &adj_j, int32_t &adj_k, const vec3 &adj_ret)
+{
+    adj_volume_lookup(id, i, j, k, adj_id, adj_i, adj_j, adj_k, adj_ret);
+}
+CUDA_CALLABLE inline int32_t volume_lookup_index(uint64_t id, int32_t i, int32_t j, int32_t k)
+{
+    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
+    const pnanovdb_root_handle_t root = volume::get_root(buf);
+    const pnanovdb_grid_type_t grid_type = volume::get_grid_type(buf);
+    const pnanovdb_coord_t ijk{i, j, k};
+    pnanovdb_uint32_t level;
+    const pnanovdb_address_t address =
+        pnanovdb_root_get_value_address_and_level(grid_type, buf, root, PNANOVDB_REF(ijk), PNANOVDB_REF(level));
+    if (level == 0)
+    {
+        pnanovdb_uint64_t voxel_index = volume::get_grid_voxel_index(grid_type, buf, address, ijk);
+        return static_cast<int32_t>(voxel_index) - 1;
+    }
+    return -1;
+}
+CUDA_CALLABLE inline void adj_volume_lookup_index(uint64_t id, int32_t i, int32_t j, int32_t k, uint64_t &adj_id,
+                                                  int32_t &adj_i, int32_t &adj_j, int32_t &adj_k, const vec3 &adj_ret)
+{
+    // NOP
+}
+// volume_store
+template <typename T>
+CUDA_CALLABLE inline void volume_store(uint64_t id, int32_t i, int32_t j, int32_t k, const T &value)
+{
+    using traits = volume::pnano_traits<T>;
+    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
+    if (volume::get_grid_type(buf) != traits::GRID_TYPE)
+        return;
+    const pnanovdb_root_handle_t root = volume::get_root(buf);
+    const pnanovdb_coord_t ijk{i, j, k};
+    pnanovdb_uint32_t level;
+    const pnanovdb_address_t address =
+        pnanovdb_root_get_value_address_and_level(traits::GRID_TYPE, buf, root, PNANOVDB_REF(ijk), PNANOVDB_REF(level));
+    if (level == 0)
+    {
+        // only write at at leaf level (prevent modifying background value)
+        // TODO is this the intended semantics? or should be allow writing to background?
+        volume::pnano_write(value, buf, address);
+    }
+}
+template <typename T>
+CUDA_CALLABLE inline void adj_volume_store(uint64_t id, int32_t i, int32_t j, int32_t k, const T &value,
+                                           uint64_t &adj_id, int32_t &adj_i, int32_t &adj_j, int32_t &adj_k,
+                                           T &adj_value)
+{
+    // NOP -- adjoint of grid values is not available
+}
+CUDA_CALLABLE inline void volume_store_f(uint64_t id, int32_t i, int32_t j, int32_t k, const float &value)
+{
+    volume_store(id, i, j, k, value);
+}
+CUDA_CALLABLE inline void adj_volume_store_f(uint64_t id, int32_t i, int32_t j, int32_t k, const float &value,
+                                             uint64_t &adj_id, int32_t &adj_i, int32_t &adj_j, int32_t &adj_k,
+                                             float &adj_value)
+{
+    adj_volume_store(id, i, j, k, value, adj_id, adj_i, adj_j, adj_k, adj_value);
+}
+CUDA_CALLABLE inline void volume_store_v(uint64_t id, int32_t i, int32_t j, int32_t k, const vec3 &value)
+{
+    volume_store(id, i, j, k, value);
+}
+CUDA_CALLABLE inline void adj_volume_store_v(uint64_t id, int32_t i, int32_t j, int32_t k, const vec3 &value,
+                                             uint64_t &adj_id, int32_t &adj_i, int32_t &adj_j, int32_t &adj_k,
+                                             vec3 &adj_value)
+{
+    adj_volume_store(id, i, j, k, value, adj_id, adj_i, adj_j, adj_k, adj_value);
+}
+CUDA_CALLABLE inline void volume_store_i(uint64_t id, int32_t i, int32_t j, int32_t k, const int32_t &value)
+{
+    volume_store(id, i, j, k, value);
+}
+CUDA_CALLABLE inline void adj_volume_store_i(uint64_t id, int32_t i, int32_t j, int32_t k, const int32_t &value,
+                                             uint64_t &adj_id, int32_t &adj_i, int32_t &adj_j, int32_t &adj_k,
+                                             int32_t &adj_value)
+{
+    adj_volume_store(id, i, j, k, value, adj_id, adj_i, adj_j, adj_k, adj_value);
+}
+// Transform position from index space to world space
+CUDA_CALLABLE inline vec3 volume_index_to_world(uint64_t id, vec3 uvw)
+{
+    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
+    const pnanovdb_grid_handle_t grid = {0u};
+    const pnanovdb_vec3_t pos{uvw[0], uvw[1], uvw[2]};
+    const pnanovdb_vec3_t xyz = pnanovdb_grid_index_to_worldf(buf, grid, PNANOVDB_REF(pos));
+    return {xyz.x, xyz.y, xyz.z};
+}
+// Transform position from world space to index space
+CUDA_CALLABLE inline vec3 volume_world_to_index(uint64_t id, vec3 xyz)
+{
+    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
+    const pnanovdb_grid_handle_t grid = {0u};
+    const pnanovdb_vec3_t pos{xyz[0], xyz[1], xyz[2]};
+    const pnanovdb_vec3_t uvw = pnanovdb_grid_world_to_indexf(buf, grid, PNANOVDB_REF(pos));
+    return {uvw.x, uvw.y, uvw.z};
+}
+CUDA_CALLABLE inline void adj_volume_index_to_world(uint64_t id, vec3 uvw, uint64_t &adj_id, vec3 &adj_uvw,
+                                                    const vec3 &adj_ret)
+{
+    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
+    const pnanovdb_grid_handle_t grid = {0u};
+    const pnanovdb_vec3_t pos{adj_ret[0], adj_ret[1], adj_ret[2]};
+    const pnanovdb_vec3_t xyz = pnanovdb_grid_index_to_world_dirf(buf, grid, PNANOVDB_REF(pos));
+    adj_uvw = add(adj_uvw, vec3{xyz.x, xyz.y, xyz.z});
+}
+CUDA_CALLABLE inline void adj_volume_world_to_index(uint64_t id, vec3 xyz, uint64_t &adj_id, vec3 &adj_xyz,
+                                                    const vec3 &adj_ret)
+{
+    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
+    const pnanovdb_grid_handle_t grid = {0u};
+    const pnanovdb_vec3_t pos{adj_ret[0], adj_ret[1], adj_ret[2]};
+    const pnanovdb_vec3_t uvw = pnanovdb_grid_world_to_index_dirf(buf, grid, PNANOVDB_REF(pos));
+    adj_xyz = add(adj_xyz, vec3{uvw.x, uvw.y, uvw.z});
+}
+// Transform direction from index space to world space
+CUDA_CALLABLE inline vec3 volume_index_to_world_dir(uint64_t id, vec3 uvw)
+{
+    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
+    const pnanovdb_grid_handle_t grid = {0u};
+    const pnanovdb_vec3_t pos{uvw[0], uvw[1], uvw[2]};
+    const pnanovdb_vec3_t xyz = pnanovdb_grid_index_to_world_dirf(buf, grid, PNANOVDB_REF(pos));
+    return {xyz.x, xyz.y, xyz.z};
+}
+// Transform direction from world space to index space
+CUDA_CALLABLE inline vec3 volume_world_to_index_dir(uint64_t id, vec3 xyz)
+{
+    const pnanovdb_buf_t buf = volume::id_to_buffer(id);
+    const pnanovdb_grid_handle_t grid = {0u};
+    const pnanovdb_vec3_t pos{xyz[0], xyz[1], xyz[2]};
+    const pnanovdb_vec3_t uvw = pnanovdb_grid_world_to_index_dirf(buf, grid, PNANOVDB_REF(pos));
+    return {uvw.x, uvw.y, uvw.z};
+}
+CUDA_CALLABLE inline void adj_volume_index_to_world_dir(uint64_t id, vec3 uvw, uint64_t &adj_id, vec3 &adj_uvw,
+                                                        const vec3 &adj_ret)
+{
+    adj_volume_index_to_world(id, uvw, adj_id, adj_uvw, adj_ret);
+}
+CUDA_CALLABLE inline void adj_volume_world_to_index_dir(uint64_t id, vec3 xyz, uint64_t &adj_id, vec3 &adj_xyz,
+                                                        const vec3 &adj_ret)
+{
+    adj_volume_world_to_index(id, xyz, adj_id, adj_xyz, adj_ret);
+}
+} // namespace wp