PyPI - rwkv-ops - Versions diffs - 0.6.1__py3-none-any.whl - Mend

rwkv-ops 0.6.1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (89) hide show

rwkv_ops/__init__.py +45 -0
rwkv_ops/mhc_kernel/__init__.py +50 -0
rwkv_ops/mhc_kernel/common_kernel/include/mhc_types.h +66 -0
rwkv_ops/mhc_kernel/common_kernel/kernels/mhc_post_op.cuh +197 -0
rwkv_ops/mhc_kernel/common_kernel/kernels/mhc_pre_op.cuh +212 -0
rwkv_ops/mhc_kernel/common_kernel/kernels/rmsnorm.cuh +152 -0
rwkv_ops/mhc_kernel/common_kernel/kernels/sinkhorn_knopp.cuh +158 -0
rwkv_ops/mhc_kernel/common_kernel/kernels/stream_aggregate.cuh +141 -0
rwkv_ops/mhc_kernel/common_kernel/kernels/stream_distribute.cuh +111 -0
rwkv_ops/mhc_kernel/common_kernel/kernels/stream_mix.cuh +164 -0
rwkv_ops/mhc_kernel/common_kernel/kernels/type_conversions.cuh +52 -0
rwkv_ops/mhc_kernel/jax_kernel/CMakeLists.txt +47 -0
rwkv_ops/mhc_kernel/jax_kernel/mhu_ffi.cu +652 -0
rwkv_ops/mhc_kernel/jax_kernel/mhu_jax.py +939 -0
rwkv_ops/mhc_kernel/native_keras_op.py +193 -0
rwkv_ops/mhc_kernel/torch_kernel/mhc_cuda.cu +207 -0
rwkv_ops/mhc_kernel/torch_kernel/mhc_op.cpp +296 -0
rwkv_ops/mhc_kernel/torch_kernel/mhc_torch.py +306 -0
rwkv_ops/rwkv6_kernel/__init__.py +120 -0
rwkv_ops/rwkv6_kernel/jax_kernel_cuda/gpu_ops.cpp +44 -0
rwkv_ops/rwkv6_kernel/jax_kernel_cuda/kernel_helpers.h +64 -0
rwkv_ops/rwkv6_kernel/jax_kernel_cuda/kernels.h +56 -0
rwkv_ops/rwkv6_kernel/jax_kernel_cuda/pybind11_kernel_helpers.h +41 -0
rwkv_ops/rwkv6_kernel/jax_kernel_cuda/rwkv_kernels.cu +512 -0
rwkv_ops/rwkv6_kernel/jax_kernel_hip/gpu_ops.cpp +44 -0
rwkv_ops/rwkv6_kernel/jax_kernel_hip/kernel_helpers.h +64 -0
rwkv_ops/rwkv6_kernel/jax_kernel_hip/kernels.h +56 -0
rwkv_ops/rwkv6_kernel/jax_kernel_hip/pybind11_kernel_helpers.h +41 -0
rwkv_ops/rwkv6_kernel/jax_kernel_hip/rwkv_kernels.hip +514 -0
rwkv_ops/rwkv6_kernel/jax_rwkv_kernel.py +722 -0
rwkv_ops/rwkv6_kernel/ops_rwkv_kernel.py +90 -0
rwkv_ops/rwkv6_kernel/torch_kernel/wkv6_cuda.cu +397 -0
rwkv_ops/rwkv6_kernel/torch_kernel/wkv6_op.cpp +93 -0
rwkv_ops/rwkv6_kernel/torch_rwkv_kernel.py +305 -0
rwkv_ops/rwkv7_kernel/__init__.py +113 -0
rwkv_ops/rwkv7_kernel/get_jax_devices_info.py +220 -0
rwkv_ops/rwkv7_kernel/get_torch_devices_info.py +250 -0
rwkv_ops/rwkv7_kernel/jax_cuda_kernel/CMakeLists.txt +42 -0
rwkv_ops/rwkv7_kernel/jax_cuda_kernel/wkv7_ffi.cu +399 -0
rwkv_ops/rwkv7_kernel/jax_cuda_kernel/wkv7_jax.py +311 -0
rwkv_ops/rwkv7_kernel/jax_cuda_kernel_single/CMakeLists.txt +42 -0
rwkv_ops/rwkv7_kernel/jax_cuda_kernel_single/wkv7_single_step_ffi.cu +172 -0
rwkv_ops/rwkv7_kernel/jax_cuda_kernel_single/wkv7_single_step_jax.py +190 -0
rwkv_ops/rwkv7_kernel/jax_kernel/__init__.py +9 -0
rwkv_ops/rwkv7_kernel/jax_kernel/chunk_A_bwd.py +95 -0
rwkv_ops/rwkv7_kernel/jax_kernel/chunk_A_fwd.py +60 -0
rwkv_ops/rwkv7_kernel/jax_kernel/chunk_h_bwd.py +78 -0
rwkv_ops/rwkv7_kernel/jax_kernel/chunk_h_fwd.py +80 -0
rwkv_ops/rwkv7_kernel/jax_kernel/chunk_o_bwd.py +150 -0
rwkv_ops/rwkv7_kernel/jax_kernel/chunk_o_fwd.py +45 -0
rwkv_ops/rwkv7_kernel/jax_kernel/cumsum.py +34 -0
rwkv_ops/rwkv7_kernel/jax_kernel/wy_fast_bwd.py +61 -0
rwkv_ops/rwkv7_kernel/jax_kernel/wy_fast_fwd.py +86 -0
rwkv_ops/rwkv7_kernel/jax_op.py +382 -0
rwkv_ops/rwkv7_kernel/mlx_op.py +118 -0
rwkv_ops/rwkv7_kernel/native_keras_op.py +108 -0
rwkv_ops/rwkv7_kernel/tf_eager_kernel.py +155 -0
rwkv_ops/rwkv7_kernel/torch_cuda_kernel/wkv7_cuda.cu +235 -0
rwkv_ops/rwkv7_kernel/torch_cuda_kernel/wkv7_op.cpp +63 -0
rwkv_ops/rwkv7_kernel/torch_cuda_kernel/wkv7_torch.py +233 -0
rwkv_ops/rwkv7_kernel/torch_cuda_kernel_single/wkv7_single_step_cuda.cu +101 -0
rwkv_ops/rwkv7_kernel/torch_cuda_kernel_single/wkv7_single_step_op.cpp +56 -0
rwkv_ops/rwkv7_kernel/torch_cuda_kernel_single/wkv7_single_step_torch.py +112 -0
rwkv_ops/rwkv7_kernel/torch_kernel/__init__.py +13 -0
rwkv_ops/rwkv7_kernel/torch_kernel/chunk_A_bwd.py +96 -0
rwkv_ops/rwkv7_kernel/torch_kernel/chunk_A_fwd.py +64 -0
rwkv_ops/rwkv7_kernel/torch_kernel/chunk_h_bwd.py +74 -0
rwkv_ops/rwkv7_kernel/torch_kernel/chunk_h_fwd.py +75 -0
rwkv_ops/rwkv7_kernel/torch_kernel/chunk_o_bwd.py +148 -0
rwkv_ops/rwkv7_kernel/torch_kernel/chunk_o_fwd.py +44 -0
rwkv_ops/rwkv7_kernel/torch_kernel/cumsum.py +31 -0
rwkv_ops/rwkv7_kernel/torch_kernel/wy_fast_bwd.py +63 -0
rwkv_ops/rwkv7_kernel/torch_kernel/wy_fast_fwd.py +79 -0
rwkv_ops/rwkv7_kernel/torch_op.py +504 -0
rwkv_ops/rwkv7_kernel/triton_kernel/__init__.py +34 -0
rwkv_ops/rwkv7_kernel/triton_kernel/chunk_A_bwd.py +328 -0
rwkv_ops/rwkv7_kernel/triton_kernel/chunk_A_fwd.py +186 -0
rwkv_ops/rwkv7_kernel/triton_kernel/chunk_h_bwd.py +157 -0
rwkv_ops/rwkv7_kernel/triton_kernel/chunk_h_fwd.py +160 -0
rwkv_ops/rwkv7_kernel/triton_kernel/chunk_o_bwd.py +382 -0
rwkv_ops/rwkv7_kernel/triton_kernel/chunk_o_fwd.py +137 -0
rwkv_ops/rwkv7_kernel/triton_kernel/cumsum.py +86 -0
rwkv_ops/rwkv7_kernel/triton_kernel/utils.py +20 -0
rwkv_ops/rwkv7_kernel/triton_kernel/wy_fast_bwd.py +193 -0
rwkv_ops/rwkv7_kernel/triton_kernel/wy_fast_fwd.py +326 -0
rwkv_ops-0.6.1.dist-info/METADATA +495 -0
rwkv_ops-0.6.1.dist-info/RECORD +89 -0
rwkv_ops-0.6.1.dist-info/WHEEL +4 -0
rwkv_ops-0.6.1.dist-info/licenses/LICENSE.txt +201 -0

rwkv_ops/mhc_kernel/jax_kernel/mhu_ffi.cu ADDED Viewed

@@ -0,0 +1,652 @@
+#include <cuda_runtime.h>
+#include <cuda_bf16.h>
+#include <xla/ffi/api/ffi.h>
+#include <vector>
+#include <cstdint>
+// 公共头文件路径
+#include "../common_kernel/include/mhc_types.h"
+#include "../common_kernel/kernels/sinkhorn_knopp.cuh"
+#include "../common_kernel/kernels/rmsnorm.cuh"
+#include "../common_kernel/kernels/stream_mix.cuh"
+#include "../common_kernel/kernels/stream_aggregate.cuh"
+#include "../common_kernel/kernels/stream_distribute.cuh"
+#include "../common_kernel/kernels/mhc_post_op.cuh"
+#include "../common_kernel/kernels/mhc_pre_op.cuh"
+namespace ffi = xla::ffi;
+/* -------------------- Sinkhorn Knopp FFI -------------------- */
+// 前向FFI处理器
+static ffi::Error SinkhornFwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::F32> inp,        // 输入: [B, T, N, N]
+    ffi::ResultBuffer<ffi::F32> out,  // 输出: [B, T, N, N]
+    std::int32_t num_iters,           // 显式使用 std::int32_t
+    float eps                         // float 本身就是32位
+) {
+    // 获取张量维度
+    auto dims = inp.dimensions();
+    int64_t B = dims[0];
+    int64_t T = dims[1];
+    int64_t N = dims[2];
+    const float* inp_ptr = inp.typed_data();
+    float* out_ptr = out->typed_data();
+    // 批量调用sinkhorn前向
+    for (int64_t b = 0; b < B * T; ++b) {
+        mhc::sinkhorn_knopp_forward(
+            out_ptr + b * N * N,
+            inp_ptr + b * N * N,
+            static_cast<int>(N),
+            static_cast<int>(N),
+            num_iters,  // 已经是int32
+            eps,
+            stream
+        );
+    }
+    return ffi::Error::Success();
+}
+// 反向FFI处理器
+static ffi::Error SinkhornBwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::F32> grad,       // 梯度: [B, T, N, N]
+    ffi::Buffer<ffi::F32> out_fwd,    // 前向输出: [B, T, N, N]
+    ffi::Buffer<ffi::F32> inp,        // 原始输入: [B, T, N, N]
+    ffi::ResultBuffer<ffi::F32> d_inp, // 输入梯度: [B, T, N, N]
+    std::int32_t num_iters,           // 显式使用 std::int32_t
+    float eps
+) {
+    // 获取张量维度
+    auto dims = grad.dimensions();
+    int64_t B = dims[0];
+    int64_t T = dims[1];
+    int64_t N = dims[2];
+    const float* grad_ptr = grad.typed_data();
+    const float* out_fwd_ptr = out_fwd.typed_data();
+    const float* inp_ptr = inp.typed_data();
+    float* d_inp_ptr = d_inp->typed_data();
+    // 批量调用sinkhorn反向
+    for (int64_t b = 0; b < B * T; ++b) {
+        mhc::sinkhorn_knopp_backward(
+            d_inp_ptr + b * N * N,
+            grad_ptr + b * N * N,
+            out_fwd_ptr + b * N * N,
+            inp_ptr + b * N * N,
+            static_cast<int>(N),
+            num_iters,  // 已经是int32
+            eps,
+            stream
+        );
+    }
+    return ffi::Error::Success();
+}
+/* -------------------- FFI 符号注册 -------------------- */
+// 前向符号注册
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    SinkhornFwd, SinkhornFwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::F32>>()      // inp
+        .Ret<ffi::Buffer<ffi::F32>>()      // out
+        .Attr<std::int32_t>("num_iters")    // 显式指定32位整数
+        .Attr<float>("eps")                 // float 默认是32位
+);
+// 反向符号注册
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    SinkhornBwd, SinkhornBwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::F32>>()      // grad
+        .Arg<ffi::Buffer<ffi::F32>>()      // out_fwd
+        .Arg<ffi::Buffer<ffi::F32>>()      // inp
+        .Ret<ffi::Buffer<ffi::F32>>()      // d_inp
+        .Attr<std::int32_t>("num_iters")    // 显式指定32位整数
+        .Attr<float>("eps")                 // float 默认是32位
+);
+static ffi::Error RMSNormFwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::BF16> inp,        // 输入: [N, C]
+    ffi::ResultBuffer<ffi::BF16> out,  // 输出: [N, C]
+    float eps
+) {
+    auto dims = inp.dimensions();
+    int64_t N = dims[0];
+    int64_t C = dims[1];
+    const nv_bfloat16* inp_ptr = reinterpret_cast<const nv_bfloat16*>(inp.typed_data());
+    nv_bfloat16* out_ptr = reinterpret_cast<nv_bfloat16*>(out->typed_data());
+    // 调用包装函数
+    mhc::rmsnorm_forward(out_ptr, inp_ptr, N, C, eps, stream);
+    return ffi::Error::Success();
+}
+// 反向FFI处理器
+static ffi::Error RMSNormBwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::BF16> grad,       // 梯度: [N, C]
+    ffi::Buffer<ffi::BF16> inp,        // 原始输入: [N, C]
+    ffi::ResultBuffer<ffi::BF16> dx,   // 输入梯度: [N, C]
+    float eps
+) {
+    auto dims = grad.dimensions();
+    int64_t N = dims[0];
+    int64_t C = dims[1];
+    const nv_bfloat16* grad_ptr = reinterpret_cast<const nv_bfloat16*>(grad.typed_data());
+    const nv_bfloat16* inp_ptr = reinterpret_cast<const nv_bfloat16*>(inp.typed_data());
+    nv_bfloat16* dx_ptr = reinterpret_cast<nv_bfloat16*>(dx->typed_data());
+    // 调用包装函数
+    mhc::rmsnorm_backward(dx_ptr, grad_ptr, inp_ptr, N, C, eps, stream);
+    return ffi::Error::Success();
+}
+/* -------------------- 注册 FFI 符号 -------------------- */
+// 在文件末尾追加注册
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    RMSNormFwd, RMSNormFwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::BF16>>()      // inp
+        .Ret<ffi::Buffer<ffi::BF16>>()      // out
+        .Attr<float>("eps")                  // eps
+);
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    RMSNormBwd, RMSNormBwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::BF16>>()      // grad
+        .Arg<ffi::Buffer<ffi::BF16>>()      // inp
+        .Ret<ffi::Buffer<ffi::BF16>>()      // dx
+        .Attr<float>("eps")                  // eps
+);
+/* -------------------- Stream Mix FFI -------------------- */
+// 前向FFI处理器
+static ffi::Error StreamMixFwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::BF16> inp,        // 输入: [B, T, n, C]
+    ffi::Buffer<ffi::F32> M,           // 权重: [B, T, n, n]
+    ffi::ResultBuffer<ffi::BF16> out   // 输出: [B, T, n, C]
+) {
+    auto dims = inp.dimensions();
+    int64_t B = dims[0];
+    int64_t T = dims[1];
+    int64_t n = dims[2];
+    int64_t C = dims[3];
+    const nv_bfloat16* inp_ptr = reinterpret_cast<const nv_bfloat16*>(inp.typed_data());
+    const float* M_ptr = M.typed_data();
+    nv_bfloat16* out_ptr = reinterpret_cast<nv_bfloat16*>(out->typed_data());
+    // 调用包装函数
+    mhc::stream_mix_forward(out_ptr, inp_ptr, M_ptr, B, T, static_cast<int>(n), C, stream);
+    return ffi::Error::Success();
+}
+// 反向FFI处理器
+// 修改1: 函数签名
+static ffi::Error StreamMixBwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::F32> grad,        // 从 BF16 改为 F32
+    ffi::Buffer<ffi::BF16> inp,
+    ffi::Buffer<ffi::F32> M,
+    ffi::ResultBuffer<ffi::BF16> d_inp,
+    ffi::ResultBuffer<ffi::F32> d_M
+) {
+    auto dims = grad.dimensions();  // 现在用 grad 获取维度
+    int64_t B = dims[0];
+    int64_t T = dims[1];
+    int64_t n = dims[2];
+    int64_t C = dims[3];
+    const float* grad_ptr = grad.typed_data();  // 直接获取 float*
+    const nv_bfloat16* inp_ptr = reinterpret_cast<const nv_bfloat16*>(inp.typed_data());
+    const float* M_ptr = M.typed_data();
+    nv_bfloat16* d_inp_ptr = reinterpret_cast<nv_bfloat16*>(d_inp->typed_data());
+    float* d_M_ptr = d_M->typed_data();
+    mhc::stream_mix_backward(d_inp_ptr, d_M_ptr, grad_ptr, inp_ptr, M_ptr,
+                            B, T, static_cast<int>(n), C, stream);
+    return ffi::Error::Success();
+}
+/* -------------------- 注册 FFI 符号 -------------------- */
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    StreamMixFwd, StreamMixFwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::BF16>>()      // inp
+        .Arg<ffi::Buffer<ffi::F32>>()      // M
+        .Ret<ffi::Buffer<ffi::BF16>>()      // out
+);
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    StreamMixBwd, StreamMixBwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::F32>>()      // grad: F32
+        .Arg<ffi::Buffer<ffi::BF16>>()      // inp: BF16
+        .Arg<ffi::Buffer<ffi::F32>>()      // M: F32
+        .Ret<ffi::Buffer<ffi::BF16>>()      // d_inp: BF16
+        .Ret<ffi::Buffer<ffi::F32>>()      // d_M: F32
+);
+/* -------------------- Stream Aggregate FFI -------------------- */
+// 前向FFI处理器
+static ffi::Error StreamAggregateFwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::BF16> inp,        // 输入: [B, T, n, C]
+    ffi::Buffer<ffi::F32> H_pre,       // 权重: [B, T, n] 或 [n]
+    ffi::ResultBuffer<ffi::BF16> out,  // 输出: [B, T, C]
+    bool per_token                     // 是否为per-token权重模式
+) {
+    auto dims = inp.dimensions();
+    int64_t B = dims[0];
+    int64_t T = dims[1];
+    int64_t n = dims[2];
+    int64_t C = dims[3];
+    const nv_bfloat16* inp_ptr = reinterpret_cast<const nv_bfloat16*>(inp.typed_data());
+    const float* H_pre_ptr = H_pre.typed_data();
+    nv_bfloat16* out_ptr = reinterpret_cast<nv_bfloat16*>(out->typed_data());
+    // 调用包装函数（注意：内部会自动处理per_token逻辑）
+    mhc::stream_aggregate_forward(
+        out_ptr, inp_ptr, H_pre_ptr,
+        B * T, static_cast<int>(n), C, per_token, stream
+    );
+    return ffi::Error::Success();
+}
+// 反向FFI处理器
+static ffi::Error StreamAggregateBwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::F32> grad,        // 梯度: [B, T, C] (float32)
+    ffi::Buffer<ffi::BF16> inp,        // 原始输入: [B, T, n, C]
+    ffi::Buffer<ffi::F32> H_pre,       // 权重: [B, T, n] 或 [n]
+    ffi::ResultBuffer<ffi::BF16> d_inp,      // 输入梯度: [B, T, n, C]
+    ffi::ResultBuffer<ffi::F32> d_H_pre,     // 权重梯度: [B, T, n] 或 [n]
+    bool per_token                     // 是否为per-token权重模式
+) {
+    auto dims = inp.dimensions();
+    int64_t B = dims[0];
+    int64_t T = dims[1];
+    int64_t n = dims[2];
+    int64_t C = dims[3];
+    const float* grad_ptr = grad.typed_data();
+    const nv_bfloat16* inp_ptr = reinterpret_cast<const nv_bfloat16*>(inp.typed_data());
+    const float* H_pre_ptr = H_pre.typed_data();
+    nv_bfloat16* d_inp_ptr = reinterpret_cast<nv_bfloat16*>(d_inp->typed_data());
+    float* d_H_pre_ptr = d_H_pre->typed_data();
+    // 调用包装函数（内部会处理per_token逻辑和梯度累加）
+    mhc::stream_aggregate_backward(
+        d_inp_ptr, d_H_pre_ptr, grad_ptr, inp_ptr, H_pre_ptr,
+        B * T, static_cast<int>(n), C, per_token, stream
+    );
+    return ffi::Error::Success();
+}
+/* -------------------- 注册 FFI 符号 -------------------- */
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    StreamAggregateFwd, StreamAggregateFwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::BF16>>()      // inp
+        .Arg<ffi::Buffer<ffi::F32>>()      // H_pre
+        .Ret<ffi::Buffer<ffi::BF16>>()      // out
+        .Attr<bool>("per_token")            // 权重模式
+);
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    StreamAggregateBwd, StreamAggregateBwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::F32>>()      // grad
+        .Arg<ffi::Buffer<ffi::BF16>>()      // inp
+        .Arg<ffi::Buffer<ffi::F32>>()      // H_pre
+        .Ret<ffi::Buffer<ffi::BF16>>()      // d_inp
+        .Ret<ffi::Buffer<ffi::F32>>()      // d_H_pre
+        .Attr<bool>("per_token")            // 权重模式
+);
+/* -------------------- Stream Distribute FFI -------------------- */
+// 前向：[B, T, C] (BF16), [B, T, n] (F32) -> [B, T, n, C] (BF16)
+static ffi::Error StreamDistributeFwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::BF16> inp,     // [B, T, C]
+    ffi::Buffer<ffi::F32> H_post,   // [B, T, n]
+    ffi::ResultBuffer<ffi::BF16> out // [B, T, n, C]
+) {
+    auto dims_inp = inp.dimensions();
+    auto dims_h = H_post.dimensions();
+    int64_t B = dims_inp[0];
+    int64_t T = dims_inp[1];
+    int64_t C = dims_inp[2];
+    int64_t n = dims_h[2];
+    // blockIdx.x 覆盖 B*T*C，blockIdx.y 覆盖 n
+    dim3 threads(256);
+    dim3 blocks((B * T * C + 255) / 256, n);
+    mhc::stream_distribute_fwd_kernel<<<blocks, threads, 0, stream>>>(
+        reinterpret_cast<mhc::floatX*>(out->typed_data()),
+        reinterpret_cast<const mhc::floatX*>(inp.typed_data()),
+        H_post.typed_data(),
+        B, T, static_cast<int>(n), C
+    );
+    return ffi::Error::Success();
+}
+// 反向
+static ffi::Error StreamDistributeBwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::BF16> grad,    // [B, T, n, C]
+    ffi::Buffer<ffi::BF16> inp,     // [B, T, C]
+    ffi::Buffer<ffi::F32> H_post,   // [B, T, n]
+    ffi::ResultBuffer<ffi::BF16> d_inp,   // [B, T, C]
+    ffi::ResultBuffer<ffi::F32> d_H_post  // [B, T, n]
+) {
+    auto dims = grad.dimensions();
+    int64_t B = dims[0];
+    int64_t T = dims[1];
+    int64_t n = dims[2];
+    int64_t C = dims[3];
+    // 1. 计算 dx: [B, T, C]
+    dim3 threads(256);
+    dim3 blocks_dx((B * T * C + 255) / 256);
+    mhc::stream_distribute_bwd_dx_kernel<<<blocks_dx, threads, 0, stream>>>(
+        reinterpret_cast<mhc::floatX*>(d_inp->typed_data()),
+        reinterpret_cast<const mhc::floatX*>(grad.typed_data()),
+        H_post.typed_data(),
+        B, T, static_cast<int>(n), C
+    );
+    // 2. 计算 dH: [B, T, n]
+    dim3 blocks_dh(B * T, n);
+    mhc::stream_distribute_bwd_dh_kernel<256><<<blocks_dh, threads, 0, stream>>>(
+        d_H_post->typed_data(),
+        reinterpret_cast<const mhc::floatX*>(grad.typed_data()),
+        reinterpret_cast<const mhc::floatX*>(inp.typed_data()),
+        B, T, static_cast<int>(n), C
+    );
+    return ffi::Error::Success();
+}
+// 注册 FFI 符号 (追加到文件末尾的 XLA_FFI_DEFINE_HANDLER_SYMBOL 序列中)
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    StreamDistributeFwd, StreamDistributeFwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::BF16>>() // inp
+        .Arg<ffi::Buffer<ffi::F32>>()  // H_post
+        .Ret<ffi::Buffer<ffi::BF16>>() // out
+);
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    StreamDistributeBwd, StreamDistributeBwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::BF16>>() // grad
+        .Arg<ffi::Buffer<ffi::BF16>>() // inp
+        .Arg<ffi::Buffer<ffi::F32>>()  // H_post
+        .Ret<ffi::Buffer<ffi::BF16>>() // d_inp
+        .Ret<ffi::Buffer<ffi::F32>>()  // d_H_post
+);
+/* -------------------- MHC Post-Op FFI -------------------- */
+// 前向处理器
+static ffi::Error MhcPostOpFwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::BF16> layer_out,  // [B, T, C]
+    ffi::Buffer<ffi::BF16> x_expanded, // [B, T, n, C]
+    ffi::Buffer<ffi::F32> H_post,      // [B, T, n]
+    ffi::Buffer<ffi::F32> H_res,       // [B, T, n, n]
+    ffi::ResultBuffer<ffi::BF16> out   // [B, T, n, C]
+) {
+    auto dims = x_expanded.dimensions();
+    int64_t B = dims[0], T = dims[1], n = dims[2], C = dims[3];
+    mhc::mhc_post_op_forward(
+        reinterpret_cast<mhc::floatX*>(out->typed_data()),
+        reinterpret_cast<const mhc::floatX*>(layer_out.typed_data()),
+        reinterpret_cast<const mhc::floatX*>(x_expanded.typed_data()),
+        H_post.typed_data(),
+        H_res.typed_data(),
+        B, T, static_cast<int>(n), C, stream
+    );
+    return ffi::Error::Success();
+}
+// 反向处理器
+static ffi::Error MhcPostOpBwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::BF16> grad,       // [B, T, n, C]
+    ffi::Buffer<ffi::BF16> layer_out,
+    ffi::Buffer<ffi::BF16> x_expanded,
+    ffi::Buffer<ffi::F32> H_post,
+    ffi::Buffer<ffi::F32> H_res,
+    ffi::ResultBuffer<ffi::BF16> d_layer_out,
+    ffi::ResultBuffer<ffi::BF16> d_x_expanded,
+    ffi::ResultBuffer<ffi::F32> d_H_post, // <--- 需要清零
+    ffi::ResultBuffer<ffi::F32> d_H_res   // <--- 需要清零
+) {
+    auto dims = x_expanded.dimensions();
+    int64_t B = dims[0], T = dims[1], n = dims[2], C = dims[3];
+    // -----------------------------------------------------------------
+    // 【关键修复】: 显式清零 Accumulation Buffer
+    // 因为 Kernel 内部使用 atomicAdd，而 JAX 分配的显存包含垃圾数据
+    // -----------------------------------------------------------------
+    size_t size_h_post = B * T * n * sizeof(float);
+    size_t size_h_res = B * T * n * n * sizeof(float);
+    cudaMemsetAsync(d_H_post->typed_data(), 0, size_h_post, stream);
+    cudaMemsetAsync(d_H_res->typed_data(), 0, size_h_res, stream);
+    // 调用 Kernel
+    mhc::mhc_post_op_backward_full(
+        reinterpret_cast<mhc::floatX*>(d_layer_out->typed_data()),
+        reinterpret_cast<mhc::floatX*>(d_x_expanded->typed_data()),
+        d_H_post->typed_data(),
+        d_H_res->typed_data(),
+        reinterpret_cast<const mhc::floatX*>(grad.typed_data()),
+        reinterpret_cast<const mhc::floatX*>(layer_out.typed_data()),
+        reinterpret_cast<const mhc::floatX*>(x_expanded.typed_data()),
+        H_post.typed_data(),
+        H_res.typed_data(),
+        B, T, static_cast<int>(n), C, stream
+    );
+    return ffi::Error::Success();
+}
+// --- 注册符号 ---
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    MhcPostOpFwd, MhcPostOpFwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::BF16>>()
+        .Arg<ffi::Buffer<ffi::BF16>>()
+        .Arg<ffi::Buffer<ffi::F32>>()
+        .Arg<ffi::Buffer<ffi::F32>>()
+        .Ret<ffi::Buffer<ffi::BF16>>()
+);
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    MhcPostOpBwd, MhcPostOpBwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::BF16>>() // grad
+        .Arg<ffi::Buffer<ffi::BF16>>() // lo
+        .Arg<ffi::Buffer<ffi::BF16>>() // xe
+        .Arg<ffi::Buffer<ffi::F32>>()  // hp
+        .Arg<ffi::Buffer<ffi::F32>>()  // hr
+        .Ret<ffi::Buffer<ffi::BF16>>() // d_lo
+        .Ret<ffi::Buffer<ffi::BF16>>() // d_xe
+        .Ret<ffi::Buffer<ffi::F32>>()  // d_hp
+        .Ret<ffi::Buffer<ffi::F32>>()  // d_hr
+);
+/* -------------------- MHC Pre-Op FFI -------------------- */
+// 前向处理器：融合 Aggregate + Sigmoid + Sinkhorn 投影
+static ffi::Error MhcPreOpFwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::BF16> x_expanded,  // [B, T, n, C]
+    ffi::Buffer<ffi::F32> h_pre_raw,    // [B, T, n]
+    ffi::Buffer<ffi::F32> h_post_raw,   // [B, T, n]
+    ffi::Buffer<ffi::F32> h_res_raw,    // [B, T, n, n]
+    ffi::ResultBuffer<ffi::BF16> x_layer_in, // [B, T, C]
+    ffi::ResultBuffer<ffi::F32> H_pre,       // [B, T, n] (sigmoid后)
+    ffi::ResultBuffer<ffi::F32> H_post,      // [B, T, n] (2*sigmoid后)
+    ffi::ResultBuffer<ffi::F32> H_res,       // [B, T, n, n] (Sinkhorn后)
+    std::int32_t sinkhorn_iters,
+    float eps
+) {
+    auto dims = x_expanded.dimensions();
+    int64_t B = dims[0];
+    int64_t T = dims[1];
+    int n = static_cast<int>(dims[2]);
+    int64_t C = dims[3];
+    // 调用 .cuh 中的融合前向接口
+    mhc::mhc_pre_op_forward(
+        reinterpret_cast<mhc::floatX*>(x_layer_in->typed_data()),
+        H_pre->typed_data(),
+        H_post->typed_data(),
+        H_res->typed_data(),
+        reinterpret_cast<const mhc::floatX*>(x_expanded.typed_data()),
+        h_pre_raw.typed_data(),
+        h_post_raw.typed_data(),
+        h_res_raw.typed_data(),
+        B, T, n, C, sinkhorn_iters, eps, stream
+    );
+    return ffi::Error::Success();
+}
+// 反向处理器：全量梯度回传（含 Sinkhorn 反向）
+static ffi::Error MhcPreOpBwdHost(
+    cudaStream_t stream,
+    ffi::Buffer<ffi::BF16> grad_layer_in,  // [B, T, C]
+    ffi::Buffer<ffi::F32> grad_H_post,     // [B, T, n]
+    ffi::Buffer<ffi::F32> grad_H_res,      // [B, T, n, n]
+    ffi::Buffer<ffi::BF16> x_expanded,     // [B, T, n, C] (前向输入)
+    ffi::Buffer<ffi::F32> H_pre,           // [B, T, n] (前向输出)
+    ffi::Buffer<ffi::F32> H_post,          // [B, T, n] (前向输出)
+    ffi::Buffer<ffi::F32> H_res_out,       // [B, T, n, n] (Sinkhorn后)
+    ffi::Buffer<ffi::F32> h_res_raw,       // [B, T, n, n] (原始输入)
+    ffi::ResultBuffer<ffi::BF16> d_x_expanded, // [B, T, n, C]
+    ffi::ResultBuffer<ffi::F32> d_h_pre_raw,   // [B, T, n]
+    ffi::ResultBuffer<ffi::F32> d_h_post_raw,  // [B, T, n]
+    ffi::ResultBuffer<ffi::F32> d_h_res_raw,   // [B, T, n, n]
+    std::int32_t sinkhorn_iters,
+    float eps
+) {
+    auto dims = x_expanded.dimensions();
+    int64_t B = dims[0];
+    int64_t T = dims[1];
+    int n = static_cast<int>(dims[2]);
+    int64_t C = dims[3];
+    // -----------------------------------------------------------------
+    // 【关键修复】: 显式清零所有输出梯度缓冲区
+    // PyTorch 版本使用 torch.zeros_like，FFI 侧需手动 Memset
+    // 原因：1) 对齐框架行为；2) 防止未初始化数据导致的数值误差
+    // -----------------------------------------------------------------
+    size_t size_h_pre = B * T * n * sizeof(float);
+    size_t size_h_post = B * T * n * sizeof(float);
+    size_t size_h_res = B * T * n * n * sizeof(float);
+    // d_x_expanded 由每个线程独占写入，无需清零
+    cudaMemsetAsync(d_h_pre_raw->typed_data(), 0, size_h_pre, stream);
+    cudaMemsetAsync(d_h_post_raw->typed_data(), 0, size_h_post, stream);
+    cudaMemsetAsync(d_h_res_raw->typed_data(), 0, size_h_res, stream);
+    // 调用 .cuh 中的融合反向接口
+    mhc::mhc_pre_op_backward(
+        reinterpret_cast<mhc::floatX*>(d_x_expanded->typed_data()),
+        d_h_pre_raw->typed_data(),
+        d_h_post_raw->typed_data(),
+        d_h_res_raw->typed_data(),
+        reinterpret_cast<const mhc::floatX*>(grad_layer_in.typed_data()),
+        grad_H_post.typed_data(),
+        grad_H_res.typed_data(),
+        reinterpret_cast<const mhc::floatX*>(x_expanded.typed_data()),
+        H_pre.typed_data(),
+        H_post.typed_data(),
+        H_res_out.typed_data(),
+        h_res_raw.typed_data(),
+        B, T, n, C, sinkhorn_iters, eps, stream
+    );
+    return ffi::Error::Success();
+}
+// 注册 FFI 符号（追加到文件末尾）
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    MhcPreOpFwd, MhcPreOpFwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::BF16>>()  // x_expanded
+        .Arg<ffi::Buffer<ffi::F32>>()  // h_pre_raw
+        .Arg<ffi::Buffer<ffi::F32>>()  // h_post_raw
+        .Arg<ffi::Buffer<ffi::F32>>()  // h_res_raw
+        .Ret<ffi::Buffer<ffi::BF16>>() // x_layer_in
+        .Ret<ffi::Buffer<ffi::F32>>()  // H_pre
+        .Ret<ffi::Buffer<ffi::F32>>()  // H_post
+        .Ret<ffi::Buffer<ffi::F32>>()  // H_res
+        .Attr<std::int32_t>("sinkhorn_iters")
+        .Attr<float>("eps")
+);
+XLA_FFI_DEFINE_HANDLER_SYMBOL(
+    MhcPreOpBwd, MhcPreOpBwdHost,
+    ffi::Ffi::Bind()
+        .Ctx<ffi::PlatformStream<cudaStream_t>>()
+        .Arg<ffi::Buffer<ffi::BF16>>()  // grad_layer_in
+        .Arg<ffi::Buffer<ffi::F32>>()  // grad_H_post
+        .Arg<ffi::Buffer<ffi::F32>>()  // grad_H_res
+        .Arg<ffi::Buffer<ffi::BF16>>() // x_expanded
+        .Arg<ffi::Buffer<ffi::F32>>()  // H_pre
+        .Arg<ffi::Buffer<ffi::F32>>()  // H_post
+        .Arg<ffi::Buffer<ffi::F32>>()  // H_res_out
+        .Arg<ffi::Buffer<ffi::F32>>()  // h_res_raw
+        .Ret<ffi::Buffer<ffi::BF16>>() // d_x_expanded
+        .Ret<ffi::Buffer<ffi::F32>>()  // d_h_pre_raw
+        .Ret<ffi::Buffer<ffi::F32>>()  // d_h_post_raw
+        .Ret<ffi::Buffer<ffi::F32>>()  // d_h_res_raw
+        .Attr<std::int32_t>("sinkhorn_iters")
+        .Attr<float>("eps")
+);