PyPI - warp-lang - Versions diffs - 1.5.1__py3-none-manylinux2014_aarch64.whl → 1.6.0__py3-none-manylinux2014_aarch64.whl - Mend

warp-lang 1.5.1__py3-none-manylinux2014_aarch64.whl → 1.6.0__py3-none-manylinux2014_aarch64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of warp-lang might be problematic. Click here for more details.

Files changed (123) hide show

warp/__init__.py +5 -0
warp/autograd.py +414 -191
warp/bin/warp-clang.so +0 -0
warp/bin/warp.so +0 -0
warp/build.py +40 -12
warp/build_dll.py +13 -6
warp/builtins.py +1076 -480
warp/codegen.py +240 -119
warp/config.py +1 -1
warp/context.py +298 -84
warp/examples/assets/square_cloth.usd +0 -0
warp/examples/benchmarks/benchmark_gemm.py +27 -18
warp/examples/benchmarks/benchmark_interop_paddle.py +3 -3
warp/examples/benchmarks/benchmark_interop_torch.py +3 -3
warp/examples/core/example_torch.py +18 -34
warp/examples/fem/example_apic_fluid.py +1 -0
warp/examples/fem/example_mixed_elasticity.py +1 -1
warp/examples/optim/example_bounce.py +1 -1
warp/examples/optim/example_cloth_throw.py +1 -1
warp/examples/optim/example_diffray.py +4 -15
warp/examples/optim/example_drone.py +1 -1
warp/examples/optim/example_softbody_properties.py +392 -0
warp/examples/optim/example_trajectory.py +1 -3
warp/examples/optim/example_walker.py +5 -0
warp/examples/sim/example_cartpole.py +0 -2
warp/examples/sim/example_cloth_self_contact.py +260 -0
warp/examples/sim/example_granular_collision_sdf.py +4 -5
warp/examples/sim/example_jacobian_ik.py +0 -2
warp/examples/sim/example_quadruped.py +5 -2
warp/examples/tile/example_tile_cholesky.py +79 -0
warp/examples/tile/example_tile_convolution.py +2 -2
warp/examples/tile/example_tile_fft.py +2 -2
warp/examples/tile/example_tile_filtering.py +3 -3
warp/examples/tile/example_tile_matmul.py +4 -4
warp/examples/tile/example_tile_mlp.py +12 -12
warp/examples/tile/example_tile_nbody.py +180 -0
warp/examples/tile/example_tile_walker.py +319 -0
warp/math.py +147 -0
warp/native/array.h +12 -0
warp/native/builtin.h +0 -1
warp/native/bvh.cpp +149 -70
warp/native/bvh.cu +287 -68
warp/native/bvh.h +195 -85
warp/native/clang/clang.cpp +5 -1
warp/native/cuda_util.cpp +35 -0
warp/native/cuda_util.h +5 -0
warp/native/exports.h +40 -40
warp/native/intersect.h +17 -0
warp/native/mat.h +41 -0
warp/native/mathdx.cpp +19 -0
warp/native/mesh.cpp +25 -8
warp/native/mesh.cu +153 -101
warp/native/mesh.h +482 -403
warp/native/quat.h +40 -0
warp/native/solid_angle.h +7 -0
warp/native/sort.cpp +85 -0
warp/native/sort.cu +34 -0
warp/native/sort.h +3 -1
warp/native/spatial.h +11 -0
warp/native/tile.h +1185 -664
warp/native/tile_reduce.h +8 -6
warp/native/vec.h +41 -0
warp/native/warp.cpp +8 -1
warp/native/warp.cu +263 -40
warp/native/warp.h +19 -5
warp/optim/linear.py +22 -4
warp/render/render_opengl.py +124 -59
warp/sim/__init__.py +6 -1
warp/sim/collide.py +270 -26
warp/sim/integrator_euler.py +25 -7
warp/sim/integrator_featherstone.py +154 -35
warp/sim/integrator_vbd.py +842 -40
warp/sim/model.py +111 -53
warp/stubs.py +248 -115
warp/tape.py +28 -30
warp/tests/aux_test_module_unload.py +15 -0
warp/tests/{test_sim_grad.py → flaky_test_sim_grad.py} +104 -63
warp/tests/test_array.py +74 -0
warp/tests/test_assert.py +242 -0
warp/tests/test_codegen.py +14 -61
warp/tests/test_collision.py +2 -2
warp/tests/test_examples.py +9 -0
warp/tests/test_grad_debug.py +87 -2
warp/tests/test_hash_grid.py +1 -1
warp/tests/test_ipc.py +116 -0
warp/tests/test_mat.py +138 -167
warp/tests/test_math.py +47 -1
warp/tests/test_matmul.py +11 -7
warp/tests/test_matmul_lite.py +4 -4
warp/tests/test_mesh.py +84 -60
warp/tests/test_mesh_query_aabb.py +165 -0
warp/tests/test_mesh_query_point.py +328 -286
warp/tests/test_mesh_query_ray.py +134 -121
warp/tests/test_mlp.py +2 -2
warp/tests/test_operators.py +43 -0
warp/tests/test_overwrite.py +2 -2
warp/tests/test_quat.py +77 -0
warp/tests/test_reload.py +29 -0
warp/tests/test_sim_grad_bounce_linear.py +204 -0
warp/tests/test_static.py +16 -0
warp/tests/test_tape.py +25 -0
warp/tests/test_tile.py +134 -191
warp/tests/test_tile_load.py +356 -0
warp/tests/test_tile_mathdx.py +61 -8
warp/tests/test_tile_mlp.py +17 -17
warp/tests/test_tile_reduce.py +24 -18
warp/tests/test_tile_shared_memory.py +66 -17
warp/tests/test_tile_view.py +165 -0
warp/tests/test_torch.py +35 -0
warp/tests/test_utils.py +36 -24
warp/tests/test_vec.py +110 -0
warp/tests/unittest_suites.py +29 -4
warp/tests/unittest_utils.py +30 -11
warp/thirdparty/unittest_parallel.py +2 -2
warp/types.py +409 -99
warp/utils.py +9 -5
{warp_lang-1.5.1.dist-info → warp_lang-1.6.0.dist-info}/METADATA +68 -44
{warp_lang-1.5.1.dist-info → warp_lang-1.6.0.dist-info}/RECORD +121 -110
{warp_lang-1.5.1.dist-info → warp_lang-1.6.0.dist-info}/WHEEL +1 -1
warp/examples/benchmarks/benchmark_tile.py +0 -179
warp/native/tile_gemm.h +0 -341
{warp_lang-1.5.1.dist-info → warp_lang-1.6.0.dist-info}/LICENSE.md +0 -0
{warp_lang-1.5.1.dist-info → warp_lang-1.6.0.dist-info}/top_level.txt +0 -0

warp/examples/tile/example_tile_walker.py ADDED Viewed

@@ -0,0 +1,319 @@
+# Copyright (c) 2025 NVIDIA CORPORATION.  All rights reserved.
+# NVIDIA CORPORATION and its licensors retain all intellectual property
+# and proprietary rights in and to this software, related documentation
+# and any modifications thereto.  Any use, reproduction, disclosure or
+# distribution of this software and related documentation without an express
+# license agreement from NVIDIA CORPORATION is strictly prohibited.
+###########################################################################
+# Example Tile Walker
+#
+# Trains a tetrahedral mesh quadruped to run. Feeds 8 time-varying input
+# phases as inputs into a single layer fully connected network with a tanh
+# activation function. Interprets the output of the network as tet
+# activations, which are fed into the wp.sim soft mesh model. This is
+# simulated forward in time and then evaluated based on the center of mass
+# momentum of the mesh.
+#
+# This example uses the Warp tile API, which as of Warp 1.6 is the
+# recommended way to handle matrix multiplication. example_walker.py in
+# examples/optim demonstrates the old way of doing matrix multiplication,
+# wp.matmul(), which will be deprecated in a future version.
+#
+###########################################################################
+import math
+import os
+import numpy as np
+from pxr import Gf, Usd, UsdGeom
+import warp as wp
+import warp.examples
+import warp.optim
+import warp.sim
+import warp.sim.render
+PHASE_COUNT = 8
+PHASE_STEP = wp.constant((2.0 * math.pi) / PHASE_COUNT)
+PHASE_FREQ = wp.constant(5.0)
+ACTIVATION_STRENGTH = wp.constant(0.3)
+TILE_TETS = wp.constant(8)
+TILE_THREADS = 64
+@wp.kernel
+def loss_kernel(com: wp.array(dtype=wp.vec3), loss: wp.array(dtype=float)):
+    tid = wp.tid()
+    vx = com[tid][0]
+    vy = com[tid][1]
+    vz = com[tid][2]
+    delta = wp.sqrt(vx * vx) + wp.sqrt(vy * vy) - vz
+    wp.atomic_add(loss, 0, delta)
+@wp.kernel
+def com_kernel(velocities: wp.array(dtype=wp.vec3), n: int, com: wp.array(dtype=wp.vec3)):
+    tid = wp.tid()
+    v = velocities[tid]
+    a = v / wp.float32(n)
+    wp.atomic_add(com, 0, a)
+@wp.kernel
+def compute_phases(phases: wp.array(dtype=float), sim_time: float):
+    tid = wp.tid()
+    phases[tid] = wp.sin(PHASE_FREQ * sim_time + wp.float32(tid) * PHASE_STEP)
+@wp.func
+def tanh(x: float):
+    return wp.tanh(x) * ACTIVATION_STRENGTH
+@wp.kernel
+def network(
+    phases: wp.array2d(dtype=float), weights: wp.array2d(dtype=float), tet_activations: wp.array2d(dtype=float)
+):
+    # output tile index
+    i = wp.tid()
+    # GEMM
+    p = wp.tile_load(phases, shape=(PHASE_COUNT, 1))
+    w = wp.tile_load(weights, shape=(TILE_TETS, PHASE_COUNT), offset=(i * TILE_TETS, 0))
+    out = wp.tile_matmul(w, p)
+    # activation
+    activations = wp.tile_map(tanh, out)
+    wp.tile_store(tet_activations, activations, offset=(i * TILE_TETS, 0))
+class Example:
+    def __init__(self, stage_path="example_tile_walker.usd", verbose=False, num_frames=300):
+        self.verbose = verbose
+        fps = 60
+        self.frame_dt = 1.0 / fps
+        self.num_frames = num_frames
+        self.sim_substeps = 80
+        self.sim_dt = self.frame_dt / self.sim_substeps
+        self.sim_time = 0.0
+        self.iter = 0
+        self.train_rate = 0.025
+        self.phase_count = PHASE_COUNT
+        self.render_time = 0.0
+        # bear
+        asset_stage = Usd.Stage.Open(os.path.join(warp.examples.get_asset_directory(), "bear.usd"))
+        geom = UsdGeom.Mesh(asset_stage.GetPrimAtPath("/root/bear"))
+        points = geom.GetPointsAttr().Get()
+        xform = Gf.Matrix4f(geom.ComputeLocalToWorldTransform(0.0))
+        for i in range(len(points)):
+            points[i] = xform.Transform(points[i])
+        self.points = [wp.vec3(point) for point in points]
+        self.tet_indices = geom.GetPrim().GetAttribute("tetraIndices").Get()
+        # sim model
+        builder = wp.sim.ModelBuilder()
+        builder.add_soft_mesh(
+            pos=wp.vec3(0.0, 0.5, 0.0),
+            rot=wp.quat_identity(),
+            scale=1.0,
+            vel=wp.vec3(0.0, 0.0, 0.0),
+            vertices=self.points,
+            indices=self.tet_indices,
+            density=1.0,
+            k_mu=2000.0,
+            k_lambda=2000.0,
+            k_damp=2.0,
+            tri_ke=0.0,
+            tri_ka=1e-8,
+            tri_kd=0.0,
+            tri_drag=0.0,
+            tri_lift=0.0,
+        )
+        # finalize model
+        self.model = builder.finalize(requires_grad=True)
+        self.control = self.model.control()
+        self.model.soft_contact_ke = 2.0e3
+        self.model.soft_contact_kd = 0.1
+        self.model.soft_contact_kf = 10.0
+        self.model.soft_contact_mu = 0.7
+        radii = wp.zeros(self.model.particle_count, dtype=float)
+        radii.fill_(0.05)
+        self.model.particle_radius = radii
+        self.model.ground = True
+        # allocate sim states
+        self.states = []
+        for _i in range(self.num_frames * self.sim_substeps + 1):
+            self.states.append(self.model.state(requires_grad=True))
+        # initialize the integrator.
+        self.integrator = wp.sim.SemiImplicitIntegrator()
+        # model input
+        self.phases = []
+        for _i in range(self.num_frames):
+            self.phases.append(wp.zeros(self.phase_count, dtype=float, requires_grad=True))
+        # weights matrix for linear network
+        rng = np.random.default_rng(42)
+        k = 1.0 / self.phase_count
+        weights = rng.uniform(-np.sqrt(k), np.sqrt(k), (self.model.tet_count, self.phase_count))
+        self.weights = wp.array(weights, dtype=float, requires_grad=True)
+        # tanh activation layer array
+        self.tet_activations = []
+        for _i in range(self.num_frames):
+            self.tet_activations.append(wp.zeros(self.model.tet_count, dtype=float, requires_grad=True))
+        # optimization
+        self.loss = wp.zeros(1, dtype=float, requires_grad=True)
+        self.coms = []
+        for _i in range(self.num_frames):
+            self.coms.append(wp.zeros(1, dtype=wp.vec3, requires_grad=True))
+        self.optimizer = warp.optim.Adam([self.weights.flatten()], lr=self.train_rate)
+        # rendering
+        if stage_path:
+            self.renderer = wp.sim.render.SimRenderer(self.model, stage_path)
+        else:
+            self.renderer = None
+        # capture forward/backward passes
+        self.use_cuda_graph = wp.get_device().is_cuda
+        if self.use_cuda_graph:
+            with wp.ScopedCapture() as capture:
+                self.tape = wp.Tape()
+                with self.tape:
+                    for i in range(self.num_frames):
+                        self.forward(i)
+                self.tape.backward(self.loss)
+            self.graph = capture.graph
+    def forward(self, frame):
+        with wp.ScopedTimer("network", active=self.verbose):
+            # build sinusoidal input phases
+            wp.launch(kernel=compute_phases, dim=self.phase_count, inputs=[self.phases[frame], self.sim_time])
+            # apply linear network with tanh activation
+            wp.launch_tiled(
+                kernel=network,
+                dim=math.ceil(self.model.tet_count / TILE_TETS),
+                inputs=[self.phases[frame].reshape((self.phase_count, 1)), self.weights],
+                outputs=[self.tet_activations[frame].reshape((self.model.tet_count, 1))],
+                block_dim=TILE_THREADS,
+            )
+            self.control.tet_activations = self.tet_activations[frame]
+        with wp.ScopedTimer("simulate", active=self.verbose):
+            # run simulation loop
+            for i in range(self.sim_substeps):
+                self.states[frame * self.sim_substeps + i].clear_forces()
+                self.integrator.simulate(
+                    self.model,
+                    self.states[frame * self.sim_substeps + i],
+                    self.states[frame * self.sim_substeps + i + 1],
+                    self.sim_dt,
+                    self.control,
+                )
+                self.sim_time += self.sim_dt
+        with wp.ScopedTimer("loss", active=self.verbose):
+            # compute center of mass velocity
+            wp.launch(
+                com_kernel,
+                dim=self.model.particle_count,
+                inputs=[
+                    self.states[(frame + 1) * self.sim_substeps].particle_qd,
+                    self.model.particle_count,
+                    self.coms[frame],
+                ],
+                outputs=[],
+            )
+            # compute loss
+            wp.launch(loss_kernel, dim=1, inputs=[self.coms[frame], self.loss], outputs=[])
+    def step(self):
+        with wp.ScopedTimer("step"):
+            if self.use_cuda_graph:
+                wp.capture_launch(self.graph)
+            else:
+                self.tape = wp.Tape()
+                with self.tape:
+                    for i in range(self.num_frames):
+                        self.forward(i)
+                self.tape.backward(self.loss)
+            # optimization
+            x = self.weights.grad.flatten()
+            self.optimizer.step([x])
+        loss = self.loss.numpy()
+        if self.verbose:
+            print(f"Iteration {self.iter}: {loss}")
+        # reset sim
+        self.sim_time = 0.0
+        self.states[0] = self.model.state(requires_grad=True)
+        # clear grads and zero arrays for next iteration
+        self.tape.zero()
+        self.loss.zero_()
+        for i in range(self.num_frames):
+            self.coms[i].zero_()
+        self.iter += 1
+    def render(self):
+        if self.renderer is None:
+            return
+        with wp.ScopedTimer("render"):
+            for i in range(self.num_frames + 1):
+                self.renderer.begin_frame(self.render_time)
+                self.renderer.render(self.states[i * self.sim_substeps])
+                self.renderer.end_frame()
+                self.render_time += self.frame_dt
+if __name__ == "__main__":
+    import argparse
+    parser = argparse.ArgumentParser(formatter_class=argparse.ArgumentDefaultsHelpFormatter)
+    parser.add_argument("--device", type=str, default=None, help="Override the default Warp device.")
+    parser.add_argument(
+        "--stage_path",
+        type=lambda x: None if x == "None" else str(x),
+        default="example_tile_walker.usd",
+        help="Path to the output USD file.",
+    )
+    parser.add_argument("--num_frames", type=int, default=300, help="Total number of frames per training iteration.")
+    parser.add_argument("--train_iters", type=int, default=30, help="Total number of training iterations.")
+    parser.add_argument("--verbose", action="store_true", help="Print out additional status messages during execution.")
+    args = parser.parse_known_args()[0]
+    with wp.ScopedDevice(args.device):
+        example = Example(stage_path=args.stage_path, verbose=args.verbose, num_frames=args.num_frames)
+        for _ in range(args.train_iters):
+            example.step()
+            example.render()
+        if example.renderer:
+            example.renderer.save()

warp/math.py ADDED Viewed

@@ -0,0 +1,147 @@
+# Copyright (c) 2024 NVIDIA CORPORATION.  All rights reserved.
+# NVIDIA CORPORATION and its licensors retain all intellectual property
+# and proprietary rights in and to this software, related documentation
+# and any modifications thereto.  Any use, reproduction, disclosure or
+# distribution of this software and related documentation without an express
+# license agreement from NVIDIA CORPORATION is strictly prohibited.
+from typing import Any
+import warp as wp
+"""
+Vector norm functions
+"""
+__all__ = [
+    "norm_l1",
+    "norm_l2",
+    "norm_huber",
+    "norm_pseudo_huber",
+    "smooth_normalize",
+]
+@wp.func
+def norm_l1(v: Any):
+    """
+    Computes the L1 norm of a vector v.
+    .. math:: \\|v\\|_1 = \\sum_i |v_i|
+    Args:
+        v (Vector[Any,Float]): The vector to compute the L1 norm of.
+    Returns:
+        float: The L1 norm of the vector.
+    """
+    n = float(0.0)
+    for i in range(len(v)):
+        n += wp.abs(v[i])
+    return n
+@wp.func
+def norm_l2(v: Any):
+    """
+    Computes the L2 norm of a vector v.
+    .. math:: \\|v\\|_2 = \\sqrt{\\sum_i v_i^2}
+    Args:
+        v (Vector[Any,Float]): The vector to compute the L2 norm of.
+    Returns:
+        float: The L2 norm of the vector.
+    """
+    return wp.length(v)
+@wp.func
+def norm_huber(v: Any, delta: float = 1.0):
+    """
+    Computes the Huber norm of a vector v with a given delta.
+    .. math::
+        H(v) = \\begin{cases} \\frac{1}{2} \\|v\\|^2 & \\text{if } \\|v\\| \\leq \\delta \\\\ \\delta(\\|v\\| - \\frac{1}{2}\\delta) & \\text{otherwise} \\end{cases}
+    .. image:: /img/norm_huber.svg
+        :align: center
+    Args:
+        v (Vector[Any,Float]): The vector to compute the Huber norm of.
+        delta (float): The threshold value, defaults to 1.0.
+    Returns:
+        float: The Huber norm of the vector.
+    """
+    a = wp.dot(v, v)
+    if a <= delta * delta:
+        return 0.5 * a
+    return delta * (wp.sqrt(a) - 0.5 * delta)
+@wp.func
+def norm_pseudo_huber(v: Any, delta: float = 1.0):
+    """
+    Computes the "pseudo" Huber norm of a vector v with a given delta.
+    .. math::
+        H^\\prime(v) = \\delta \\sqrt{1 + \\frac{\\|v\\|^2}{\\delta^2}}
+    .. image:: /img/norm_pseudo_huber.svg
+        :align: center
+    Args:
+        v (Vector[Any,Float]): The vector to compute the Huber norm of.
+        delta (float): The threshold value, defaults to 1.0.
+    Returns:
+        float: The Huber norm of the vector.
+    """
+    a = wp.dot(v, v)
+    return delta * wp.sqrt(1.0 + a / (delta * delta))
+@wp.func
+def smooth_normalize(v: Any, delta: float = 1.0):
+    """
+    Normalizes a vector using the pseudo-Huber norm.
+    See :func:`norm_pseudo_huber`.
+    .. math::
+        \\frac{v}{H^\\prime(v)}
+    Args:
+        v (Vector[Any,Float]): The vector to normalize.
+        delta (float): The threshold value, defaults to 1.0.
+    Returns:
+        Vector[Any,Float]: The normalized vector.
+    """
+    return v / norm_pseudo_huber(v, delta)
+# register API functions so they appear in the documentation
+wp.context.register_api_function(
+    norm_l1,
+    group="Vector Math",
+)
+wp.context.register_api_function(
+    norm_l2,
+    group="Vector Math",
+)
+wp.context.register_api_function(
+    norm_huber,
+    group="Vector Math",
+)
+wp.context.register_api_function(
+    norm_pseudo_huber,
+    group="Vector Math",
+)
+wp.context.register_api_function(
+    smooth_normalize,
+    group="Vector Math",
+)

warp/native/array.h CHANGED Viewed

@@ -1106,6 +1106,18 @@ inline CUDA_CALLABLE void adj_atomic_max(const A1<T>& buf, int i, int j, int k,
     FP_VERIFY_ADJ_4(value, adj_value)
 }
+template<template<typename> class A, typename T>
+CUDA_CALLABLE inline int len(const A<T>& a)
+{
+    return a.shape[0];
+}
+template<template<typename> class A, typename T>
+CUDA_CALLABLE inline void adj_len(const A<T>& a, A<T>& adj_a, int& adj_ret)
+{
+}
 } // namespace wp
 #include "fabric.h"

warp/native/builtin.h CHANGED Viewed

@@ -1761,6 +1761,5 @@ inline CUDA_CALLABLE void adj_expect_near(const vec3& actual, const vec3& expect
 // only include in kernels for now
 #if defined(__CUDACC_RTC__)
 #include "tile.h"
-#include "tile_gemm.h"
 #include "tile_reduce.h"
 #endif