RubyGems - mlx - Versions diffs - 0.30.7 - Mend

mlx 0.30.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (599) hide show

checksums.yaml +7 -0
data/ext/mlx/extconf.rb +94 -0
data/ext/mlx/native.cpp +8027 -0
data/lib/mlx/core.rb +1678 -0
data/lib/mlx/distributed_utils/common.rb +116 -0
data/lib/mlx/distributed_utils/config.rb +600 -0
data/lib/mlx/distributed_utils/launch.rb +490 -0
data/lib/mlx/extension.rb +24 -0
data/lib/mlx/nn/base.rb +388 -0
data/lib/mlx/nn/init.rb +140 -0
data/lib/mlx/nn/layers/activations.rb +336 -0
data/lib/mlx/nn/layers/base.rb +6 -0
data/lib/mlx/nn/layers/containers.rb +20 -0
data/lib/mlx/nn/layers/convolution.rb +120 -0
data/lib/mlx/nn/layers/convolution_transpose.rb +114 -0
data/lib/mlx/nn/layers/distributed.rb +309 -0
data/lib/mlx/nn/layers/dropout.rb +75 -0
data/lib/mlx/nn/layers/embedding.rb +28 -0
data/lib/mlx/nn/layers/linear.rb +79 -0
data/lib/mlx/nn/layers/normalization.rb +216 -0
data/lib/mlx/nn/layers/pooling.rb +167 -0
data/lib/mlx/nn/layers/positional_encoding.rb +126 -0
data/lib/mlx/nn/layers/quantized.rb +215 -0
data/lib/mlx/nn/layers/recurrent.rb +135 -0
data/lib/mlx/nn/layers/transformer.rb +330 -0
data/lib/mlx/nn/layers/upsample.rb +97 -0
data/lib/mlx/nn/layers.rb +18 -0
data/lib/mlx/nn/losses.rb +251 -0
data/lib/mlx/nn/utils.rb +167 -0
data/lib/mlx/nn.rb +12 -0
data/lib/mlx/optimizers/optimizers.rb +808 -0
data/lib/mlx/optimizers/schedulers.rb +62 -0
data/lib/mlx/optimizers.rb +9 -0
data/lib/mlx/utils.rb +171 -0
data/lib/mlx/version.rb +5 -0
data/lib/mlx.rb +64 -0
data/mlx/CMakeLists.txt +449 -0
data/mlx/cmake/FindCUDNN.cmake +177 -0
data/mlx/cmake/FindNCCL.cmake +54 -0
data/mlx/cmake/Findnvpl.cmake +3 -0
data/mlx/cmake/extension.cmake +50 -0
data/mlx/mlx/3rdparty/.clang-format +2 -0
data/mlx/mlx/3rdparty/pocketfft.h +3581 -0
data/mlx/mlx/CMakeLists.txt +107 -0
data/mlx/mlx/allocator.h +75 -0
data/mlx/mlx/api.h +29 -0
data/mlx/mlx/array.cpp +354 -0
data/mlx/mlx/array.h +647 -0
data/mlx/mlx/backend/common/CMakeLists.txt +9 -0
data/mlx/mlx/backend/common/binary.h +97 -0
data/mlx/mlx/backend/common/broadcasting.cpp +24 -0
data/mlx/mlx/backend/common/broadcasting.h +11 -0
data/mlx/mlx/backend/common/buffer_cache.h +158 -0
data/mlx/mlx/backend/common/common.cpp +305 -0
data/mlx/mlx/backend/common/compiled.cpp +243 -0
data/mlx/mlx/backend/common/compiled.h +77 -0
data/mlx/mlx/backend/common/copy.h +50 -0
data/mlx/mlx/backend/common/hadamard.h +109 -0
data/mlx/mlx/backend/common/load.cpp +57 -0
data/mlx/mlx/backend/common/matmul.h +67 -0
data/mlx/mlx/backend/common/reduce.cpp +154 -0
data/mlx/mlx/backend/common/reduce.h +59 -0
data/mlx/mlx/backend/common/slicing.cpp +71 -0
data/mlx/mlx/backend/common/slicing.h +20 -0
data/mlx/mlx/backend/common/ternary.h +85 -0
data/mlx/mlx/backend/common/unary.h +29 -0
data/mlx/mlx/backend/common/utils.cpp +231 -0
data/mlx/mlx/backend/common/utils.h +205 -0
data/mlx/mlx/backend/cpu/CMakeLists.txt +88 -0
data/mlx/mlx/backend/cpu/arange.h +28 -0
data/mlx/mlx/backend/cpu/arg_reduce.cpp +124 -0
data/mlx/mlx/backend/cpu/binary.cpp +269 -0
data/mlx/mlx/backend/cpu/binary.h +517 -0
data/mlx/mlx/backend/cpu/binary_ops.h +98 -0
data/mlx/mlx/backend/cpu/binary_two.h +166 -0
data/mlx/mlx/backend/cpu/cholesky.cpp +85 -0
data/mlx/mlx/backend/cpu/compiled.cpp +357 -0
data/mlx/mlx/backend/cpu/compiled_preamble.h +12 -0
data/mlx/mlx/backend/cpu/conv.cpp +1351 -0
data/mlx/mlx/backend/cpu/copy.cpp +386 -0
data/mlx/mlx/backend/cpu/copy.h +36 -0
data/mlx/mlx/backend/cpu/device_info.cpp +113 -0
data/mlx/mlx/backend/cpu/device_info.h +28 -0
data/mlx/mlx/backend/cpu/distributed.cpp +103 -0
data/mlx/mlx/backend/cpu/eig.cpp +281 -0
data/mlx/mlx/backend/cpu/eigh.cpp +241 -0
data/mlx/mlx/backend/cpu/encoder.cpp +16 -0
data/mlx/mlx/backend/cpu/encoder.h +67 -0
data/mlx/mlx/backend/cpu/eval.cpp +40 -0
data/mlx/mlx/backend/cpu/eval.h +12 -0
data/mlx/mlx/backend/cpu/fft.cpp +120 -0
data/mlx/mlx/backend/cpu/gemm.h +26 -0
data/mlx/mlx/backend/cpu/gemms/bnns.cpp +214 -0
data/mlx/mlx/backend/cpu/gemms/cblas.cpp +134 -0
data/mlx/mlx/backend/cpu/gemms/simd_bf16.cpp +45 -0
data/mlx/mlx/backend/cpu/gemms/simd_fp16.cpp +45 -0
data/mlx/mlx/backend/cpu/gemms/simd_gemm.h +139 -0
data/mlx/mlx/backend/cpu/hadamard.cpp +121 -0
data/mlx/mlx/backend/cpu/indexing.cpp +854 -0
data/mlx/mlx/backend/cpu/inverse.cpp +160 -0
data/mlx/mlx/backend/cpu/jit_compiler.cpp +166 -0
data/mlx/mlx/backend/cpu/jit_compiler.h +20 -0
data/mlx/mlx/backend/cpu/lapack.h +80 -0
data/mlx/mlx/backend/cpu/logsumexp.cpp +139 -0
data/mlx/mlx/backend/cpu/luf.cpp +120 -0
data/mlx/mlx/backend/cpu/make_compiled_preamble.ps1 +38 -0
data/mlx/mlx/backend/cpu/make_compiled_preamble.sh +41 -0
data/mlx/mlx/backend/cpu/masked_mm.cpp +608 -0
data/mlx/mlx/backend/cpu/matmul.cpp +166 -0
data/mlx/mlx/backend/cpu/primitives.cpp +478 -0
data/mlx/mlx/backend/cpu/qrf.cpp +147 -0
data/mlx/mlx/backend/cpu/quantized.cpp +1370 -0
data/mlx/mlx/backend/cpu/reduce.cpp +587 -0
data/mlx/mlx/backend/cpu/scan.cpp +338 -0
data/mlx/mlx/backend/cpu/select.cpp +95 -0
data/mlx/mlx/backend/cpu/simd/accelerate_fp16_simd.h +56 -0
data/mlx/mlx/backend/cpu/simd/accelerate_simd.h +329 -0
data/mlx/mlx/backend/cpu/simd/base_simd.h +319 -0
data/mlx/mlx/backend/cpu/simd/math.h +193 -0
data/mlx/mlx/backend/cpu/simd/neon_fp16_simd.h +212 -0
data/mlx/mlx/backend/cpu/simd/simd.h +4 -0
data/mlx/mlx/backend/cpu/simd/type.h +11 -0
data/mlx/mlx/backend/cpu/slicing.h +21 -0
data/mlx/mlx/backend/cpu/softmax.cpp +170 -0
data/mlx/mlx/backend/cpu/sort.cpp +481 -0
data/mlx/mlx/backend/cpu/svd.cpp +289 -0
data/mlx/mlx/backend/cpu/ternary.h +154 -0
data/mlx/mlx/backend/cpu/threefry.cpp +31 -0
data/mlx/mlx/backend/cpu/threefry.h +21 -0
data/mlx/mlx/backend/cpu/unary.cpp +238 -0
data/mlx/mlx/backend/cpu/unary.h +281 -0
data/mlx/mlx/backend/cpu/unary_ops.h +175 -0
data/mlx/mlx/backend/cuda/CMakeLists.txt +265 -0
data/mlx/mlx/backend/cuda/allocator.cpp +451 -0
data/mlx/mlx/backend/cuda/allocator.h +94 -0
data/mlx/mlx/backend/cuda/arange.cu +68 -0
data/mlx/mlx/backend/cuda/arg_reduce.cu +189 -0
data/mlx/mlx/backend/cuda/bin2h.cmake +150 -0
data/mlx/mlx/backend/cuda/binary/CMakeLists.txt +21 -0
data/mlx/mlx/backend/cuda/binary/add.cu +7 -0
data/mlx/mlx/backend/cuda/binary/arctan2.cu +7 -0
data/mlx/mlx/backend/cuda/binary/binary.cuh +383 -0
data/mlx/mlx/backend/cuda/binary/bitwise_binary.cu +27 -0
data/mlx/mlx/backend/cuda/binary/divide.cu +7 -0
data/mlx/mlx/backend/cuda/binary/equal.cu +15 -0
data/mlx/mlx/backend/cuda/binary/greater.cu +7 -0
data/mlx/mlx/backend/cuda/binary/greater_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/less.cu +7 -0
data/mlx/mlx/backend/cuda/binary/less_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/log_add_exp.cu +7 -0
data/mlx/mlx/backend/cuda/binary/logical_and.cu +7 -0
data/mlx/mlx/backend/cuda/binary/logical_or.cu +7 -0
data/mlx/mlx/backend/cuda/binary/maximum.cu +7 -0
data/mlx/mlx/backend/cuda/binary/minimum.cu +7 -0
data/mlx/mlx/backend/cuda/binary/multiply.cu +7 -0
data/mlx/mlx/backend/cuda/binary/not_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/power.cu +7 -0
data/mlx/mlx/backend/cuda/binary/remainder.cu +7 -0
data/mlx/mlx/backend/cuda/binary/subtract.cu +7 -0
data/mlx/mlx/backend/cuda/binary_two.cu +412 -0
data/mlx/mlx/backend/cuda/compiled.cpp +357 -0
data/mlx/mlx/backend/cuda/conv/conv.h +126 -0
data/mlx/mlx/backend/cuda/conv/gemm_conv.cu +217 -0
data/mlx/mlx/backend/cuda/conv/gemm_grouped_conv.cu +231 -0
data/mlx/mlx/backend/cuda/conv.cpp +403 -0
data/mlx/mlx/backend/cuda/copy/copy.cuh +55 -0
data/mlx/mlx/backend/cuda/copy/copy_contiguous.cu +88 -0
data/mlx/mlx/backend/cuda/copy/copy_general.cu +171 -0
data/mlx/mlx/backend/cuda/copy/copy_general_dynamic.cu +118 -0
data/mlx/mlx/backend/cuda/copy/copy_general_input.cu +229 -0
data/mlx/mlx/backend/cuda/copy.cu +132 -0
data/mlx/mlx/backend/cuda/cublas_utils.cpp +222 -0
data/mlx/mlx/backend/cuda/cublas_utils.h +95 -0
data/mlx/mlx/backend/cuda/cuda.h +21 -0
data/mlx/mlx/backend/cuda/cuda_utils.h +90 -0
data/mlx/mlx/backend/cuda/cudnn_utils.cpp +133 -0
data/mlx/mlx/backend/cuda/cudnn_utils.h +187 -0
data/mlx/mlx/backend/cuda/custom_kernel.cpp +379 -0
data/mlx/mlx/backend/cuda/cutlass_utils.cuh +46 -0
data/mlx/mlx/backend/cuda/delayload.cpp +80 -0
data/mlx/mlx/backend/cuda/device/atomic_ops.cuh +63 -0
data/mlx/mlx/backend/cuda/device/binary_ops.cuh +300 -0
data/mlx/mlx/backend/cuda/device/cast_op.cuh +118 -0
data/mlx/mlx/backend/cuda/device/complex.cuh +60 -0
data/mlx/mlx/backend/cuda/device/config.h +12 -0
data/mlx/mlx/backend/cuda/device/fp16_math.cuh +96 -0
data/mlx/mlx/backend/cuda/device/gather.cuh +53 -0
data/mlx/mlx/backend/cuda/device/gather_axis.cuh +65 -0
data/mlx/mlx/backend/cuda/device/indexing.cuh +30 -0
data/mlx/mlx/backend/cuda/device/scatter.cuh +68 -0
data/mlx/mlx/backend/cuda/device/scatter_axis.cuh +67 -0
data/mlx/mlx/backend/cuda/device/scatter_ops.cuh +44 -0
data/mlx/mlx/backend/cuda/device/ternary_ops.cuh +13 -0
data/mlx/mlx/backend/cuda/device/unary_ops.cuh +350 -0
data/mlx/mlx/backend/cuda/device/utils.cuh +464 -0
data/mlx/mlx/backend/cuda/device.cpp +522 -0
data/mlx/mlx/backend/cuda/device.h +195 -0
data/mlx/mlx/backend/cuda/device_info.cpp +232 -0
data/mlx/mlx/backend/cuda/distributed.cu +121 -0
data/mlx/mlx/backend/cuda/eval.cpp +66 -0
data/mlx/mlx/backend/cuda/event.cu +415 -0
data/mlx/mlx/backend/cuda/event.h +79 -0
data/mlx/mlx/backend/cuda/fence.cpp +42 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm.cpp +233 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm.h +114 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm_batched_12_0.cpp +77 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm_batched_12_9.cu +329 -0
data/mlx/mlx/backend/cuda/gemms/gemv.cu +327 -0
data/mlx/mlx/backend/cuda/gemms/gemv.h +34 -0
data/mlx/mlx/backend/cuda/gemms/grouped_gemm.h +25 -0
data/mlx/mlx/backend/cuda/gemms/grouped_gemm_unaligned.cu +358 -0
data/mlx/mlx/backend/cuda/indexing.cpp +434 -0
data/mlx/mlx/backend/cuda/jit_module.cpp +443 -0
data/mlx/mlx/backend/cuda/jit_module.h +120 -0
data/mlx/mlx/backend/cuda/kernel_utils.cu +52 -0
data/mlx/mlx/backend/cuda/kernel_utils.cuh +148 -0
data/mlx/mlx/backend/cuda/layer_norm.cu +417 -0
data/mlx/mlx/backend/cuda/load.cpp +60 -0
data/mlx/mlx/backend/cuda/logsumexp.cu +161 -0
data/mlx/mlx/backend/cuda/lru_cache.h +190 -0
data/mlx/mlx/backend/cuda/matmul.cpp +373 -0
data/mlx/mlx/backend/cuda/no_cuda.cpp +47 -0
data/mlx/mlx/backend/cuda/primitives.cpp +46 -0
data/mlx/mlx/backend/cuda/quantized/affine_quantize.cu +329 -0
data/mlx/mlx/backend/cuda/quantized/convert_fp8.cu +19 -0
data/mlx/mlx/backend/cuda/quantized/cublas_qqmm.cpp +206 -0
data/mlx/mlx/backend/cuda/quantized/cublas_qqmm.h +88 -0
data/mlx/mlx/backend/cuda/quantized/cuda_fp4.h +100 -0
data/mlx/mlx/backend/cuda/quantized/fp_quantize.cu +496 -0
data/mlx/mlx/backend/cuda/quantized/mxfp8_quantize.cuh +32 -0
data/mlx/mlx/backend/cuda/quantized/no_qqmm_impl.cpp +26 -0
data/mlx/mlx/backend/cuda/quantized/nvfp4_quantize.cuh +334 -0
data/mlx/mlx/backend/cuda/quantized/qmv.cu +304 -0
data/mlx/mlx/backend/cuda/quantized/qmv.h +21 -0
data/mlx/mlx/backend/cuda/quantized/qqmm.cpp +158 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_impl.cpp +50 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_impl.h +26 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_utils.cu +227 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_utils.h +30 -0
data/mlx/mlx/backend/cuda/quantized/quantized.cpp +85 -0
data/mlx/mlx/backend/cuda/quantized/quantized.h +53 -0
data/mlx/mlx/backend/cuda/quantized/quantized_utils.cuh +88 -0
data/mlx/mlx/backend/cuda/quantized/quantized_utils.h +50 -0
data/mlx/mlx/backend/cuda/random.cu +202 -0
data/mlx/mlx/backend/cuda/reduce/all_reduce.cu +159 -0
data/mlx/mlx/backend/cuda/reduce/col_reduce.cu +510 -0
data/mlx/mlx/backend/cuda/reduce/init_reduce.cu +50 -0
data/mlx/mlx/backend/cuda/reduce/reduce.cuh +71 -0
data/mlx/mlx/backend/cuda/reduce/reduce_ops.cuh +211 -0
data/mlx/mlx/backend/cuda/reduce/reduce_utils.cuh +145 -0
data/mlx/mlx/backend/cuda/reduce/row_reduce.cu +361 -0
data/mlx/mlx/backend/cuda/reduce.cu +73 -0
data/mlx/mlx/backend/cuda/rms_norm.cu +536 -0
data/mlx/mlx/backend/cuda/rope.cu +429 -0
data/mlx/mlx/backend/cuda/scaled_dot_product_attention.cpp +681 -0
data/mlx/mlx/backend/cuda/scaled_dot_product_attention.cu +796 -0
data/mlx/mlx/backend/cuda/scan.cu +468 -0
data/mlx/mlx/backend/cuda/slicing.cpp +111 -0
data/mlx/mlx/backend/cuda/softmax.cu +162 -0
data/mlx/mlx/backend/cuda/sort.cu +1076 -0
data/mlx/mlx/backend/cuda/steel/defines.cuh +9 -0
data/mlx/mlx/backend/cuda/steel/gemm.cuh +101 -0
data/mlx/mlx/backend/cuda/steel/mma.cuh +117 -0
data/mlx/mlx/backend/cuda/steel/tiles.cuh +450 -0
data/mlx/mlx/backend/cuda/steel/utils.cuh +89 -0
data/mlx/mlx/backend/cuda/ternary.cu +271 -0
data/mlx/mlx/backend/cuda/unary/CMakeLists.txt +34 -0
data/mlx/mlx/backend/cuda/unary/abs.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arccos.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arccosh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arcsin.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arcsinh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arctan.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arctanh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/bitwise_invert.cu +7 -0
data/mlx/mlx/backend/cuda/unary/ceil.cu +7 -0
data/mlx/mlx/backend/cuda/unary/conjugate.cu +7 -0
data/mlx/mlx/backend/cuda/unary/cos.cu +7 -0
data/mlx/mlx/backend/cuda/unary/cosh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/erf.cu +7 -0
data/mlx/mlx/backend/cuda/unary/erf_inv.cu +7 -0
data/mlx/mlx/backend/cuda/unary/exp.cu +7 -0
data/mlx/mlx/backend/cuda/unary/expm1.cu +7 -0
data/mlx/mlx/backend/cuda/unary/floor.cu +7 -0
data/mlx/mlx/backend/cuda/unary/imag.cu +7 -0
data/mlx/mlx/backend/cuda/unary/log.cu +21 -0
data/mlx/mlx/backend/cuda/unary/log1p.cu +7 -0
data/mlx/mlx/backend/cuda/unary/logical_not.cu +7 -0
data/mlx/mlx/backend/cuda/unary/negative.cu +7 -0
data/mlx/mlx/backend/cuda/unary/real.cu +7 -0
data/mlx/mlx/backend/cuda/unary/round.cu +18 -0
data/mlx/mlx/backend/cuda/unary/sigmoid.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sign.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sin.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sinh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sqrt.cu +15 -0
data/mlx/mlx/backend/cuda/unary/square.cu +7 -0
data/mlx/mlx/backend/cuda/unary/tan.cu +7 -0
data/mlx/mlx/backend/cuda/unary/tanh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/unary.cuh +224 -0
data/mlx/mlx/backend/cuda/utils.cpp +116 -0
data/mlx/mlx/backend/cuda/utils.h +49 -0
data/mlx/mlx/backend/cuda/vector_types.cuh +48 -0
data/mlx/mlx/backend/cuda/worker.cpp +79 -0
data/mlx/mlx/backend/cuda/worker.h +55 -0
data/mlx/mlx/backend/gpu/CMakeLists.txt +5 -0
data/mlx/mlx/backend/gpu/copy.cpp +89 -0
data/mlx/mlx/backend/gpu/copy.h +57 -0
data/mlx/mlx/backend/gpu/device_info.h +36 -0
data/mlx/mlx/backend/gpu/eval.h +18 -0
data/mlx/mlx/backend/gpu/primitives.cpp +307 -0
data/mlx/mlx/backend/gpu/slicing.cpp +44 -0
data/mlx/mlx/backend/gpu/slicing.h +36 -0
data/mlx/mlx/backend/metal/CMakeLists.txt +144 -0
data/mlx/mlx/backend/metal/allocator.cpp +279 -0
data/mlx/mlx/backend/metal/allocator.h +79 -0
data/mlx/mlx/backend/metal/binary.cpp +257 -0
data/mlx/mlx/backend/metal/binary.h +33 -0
data/mlx/mlx/backend/metal/compiled.cpp +471 -0
data/mlx/mlx/backend/metal/conv.cpp +1118 -0
data/mlx/mlx/backend/metal/copy.cpp +235 -0
data/mlx/mlx/backend/metal/custom_kernel.cpp +430 -0
data/mlx/mlx/backend/metal/device.cpp +816 -0
data/mlx/mlx/backend/metal/device.h +289 -0
data/mlx/mlx/backend/metal/device_info.cpp +58 -0
data/mlx/mlx/backend/metal/distributed.cpp +38 -0
data/mlx/mlx/backend/metal/eval.cpp +97 -0
data/mlx/mlx/backend/metal/event.cpp +62 -0
data/mlx/mlx/backend/metal/fence.cpp +162 -0
data/mlx/mlx/backend/metal/fft.cpp +807 -0
data/mlx/mlx/backend/metal/hadamard.cpp +198 -0
data/mlx/mlx/backend/metal/indexing.cpp +727 -0
data/mlx/mlx/backend/metal/jit/includes.h +58 -0
data/mlx/mlx/backend/metal/jit/indexing.h +76 -0
data/mlx/mlx/backend/metal/jit_kernels.cpp +1118 -0
data/mlx/mlx/backend/metal/kernels/CMakeLists.txt +193 -0
data/mlx/mlx/backend/metal/kernels/arange.h +9 -0
data/mlx/mlx/backend/metal/kernels/arange.metal +20 -0
data/mlx/mlx/backend/metal/kernels/arg_reduce.metal +182 -0
data/mlx/mlx/backend/metal/kernels/atomic.h +345 -0
data/mlx/mlx/backend/metal/kernels/bf16.h +16 -0
data/mlx/mlx/backend/metal/kernels/bf16_math.h +380 -0
data/mlx/mlx/backend/metal/kernels/binary.h +199 -0
data/mlx/mlx/backend/metal/kernels/binary.metal +109 -0
data/mlx/mlx/backend/metal/kernels/binary_ops.h +330 -0
data/mlx/mlx/backend/metal/kernels/binary_two.h +244 -0
data/mlx/mlx/backend/metal/kernels/binary_two.metal +54 -0
data/mlx/mlx/backend/metal/kernels/cexpf.h +134 -0
data/mlx/mlx/backend/metal/kernels/complex.h +173 -0
data/mlx/mlx/backend/metal/kernels/conv.metal +701 -0
data/mlx/mlx/backend/metal/kernels/copy.h +276 -0
data/mlx/mlx/backend/metal/kernels/copy.metal +75 -0
data/mlx/mlx/backend/metal/kernels/defines.h +24 -0
data/mlx/mlx/backend/metal/kernels/erf.h +69 -0
data/mlx/mlx/backend/metal/kernels/expm1f.h +90 -0
data/mlx/mlx/backend/metal/kernels/fence.metal +52 -0
data/mlx/mlx/backend/metal/kernels/fft/radix.h +328 -0
data/mlx/mlx/backend/metal/kernels/fft/readwrite.h +624 -0
data/mlx/mlx/backend/metal/kernels/fft.h +486 -0
data/mlx/mlx/backend/metal/kernels/fft.metal +67 -0
data/mlx/mlx/backend/metal/kernels/fp4.h +48 -0
data/mlx/mlx/backend/metal/kernels/fp8.h +80 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized.h +1850 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized.metal +153 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized_nax.h +1044 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized_nax.metal +79 -0
data/mlx/mlx/backend/metal/kernels/gemv.metal +868 -0
data/mlx/mlx/backend/metal/kernels/gemv_masked.h +827 -0
data/mlx/mlx/backend/metal/kernels/gemv_masked.metal +76 -0
data/mlx/mlx/backend/metal/kernels/hadamard.h +182 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather.h +51 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather_axis.h +44 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather_front.h +24 -0
data/mlx/mlx/backend/metal/kernels/indexing/indexing.h +23 -0
data/mlx/mlx/backend/metal/kernels/indexing/masked_scatter.h +41 -0
data/mlx/mlx/backend/metal/kernels/indexing/scatter.h +59 -0
data/mlx/mlx/backend/metal/kernels/indexing/scatter_axis.h +52 -0
data/mlx/mlx/backend/metal/kernels/layer_norm.metal +433 -0
data/mlx/mlx/backend/metal/kernels/logging.h +26 -0
data/mlx/mlx/backend/metal/kernels/logsumexp.h +140 -0
data/mlx/mlx/backend/metal/kernels/logsumexp.metal +18 -0
data/mlx/mlx/backend/metal/kernels/quantized.h +2508 -0
data/mlx/mlx/backend/metal/kernels/quantized.metal +144 -0
data/mlx/mlx/backend/metal/kernels/quantized_nax.h +1705 -0
data/mlx/mlx/backend/metal/kernels/quantized_nax.metal +106 -0
data/mlx/mlx/backend/metal/kernels/quantized_utils.h +90 -0
data/mlx/mlx/backend/metal/kernels/random.metal +103 -0
data/mlx/mlx/backend/metal/kernels/reduce.h +5 -0
data/mlx/mlx/backend/metal/kernels/reduce.metal +169 -0
data/mlx/mlx/backend/metal/kernels/reduce_utils.h +6 -0
data/mlx/mlx/backend/metal/kernels/reduction/ops.h +275 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_all.h +66 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_col.h +398 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_init.h +8 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_row.h +369 -0
data/mlx/mlx/backend/metal/kernels/rms_norm.metal +391 -0
data/mlx/mlx/backend/metal/kernels/rope.metal +229 -0
data/mlx/mlx/backend/metal/kernels/scaled_dot_product_attention.metal +44 -0
data/mlx/mlx/backend/metal/kernels/scan.h +514 -0
data/mlx/mlx/backend/metal/kernels/scan.metal +109 -0
data/mlx/mlx/backend/metal/kernels/sdpa_vector.h +394 -0
data/mlx/mlx/backend/metal/kernels/softmax.h +190 -0
data/mlx/mlx/backend/metal/kernels/softmax.metal +24 -0
data/mlx/mlx/backend/metal/kernels/sort.h +719 -0
data/mlx/mlx/backend/metal/kernels/sort.metal +80 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/attn.h +296 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention.h +471 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention.metal +27 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention_nax.h +481 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention_nax.metal +28 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/loader.h +264 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/mma.h +750 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/nax.h +1076 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/params.h +44 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/transforms.h +71 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/conv.h +13 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv.h +176 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv.metal +56 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_general.h +225 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_general.metal +47 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loader.h +6 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_l.h +451 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_n.h +319 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_general.h +381 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/params.h +62 -0
data/mlx/mlx/backend/metal/kernels/steel/defines.h +7 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/gemm.h +295 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/gemm_nax.h +157 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused.h +346 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused.metal +34 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused_nax.h +219 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused_nax.metal +30 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather.h +459 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather.metal +59 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather_nax.h +143 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather_nax.metal +37 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_masked.h +719 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_masked.metal +76 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_segmented.h +266 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_segmented.metal +43 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk.h +227 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk.metal +76 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk_nax.h +152 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk_nax.metal +30 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/loader.h +137 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/mma.h +1146 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/nax.h +1084 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/params.h +65 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/transforms.h +72 -0
data/mlx/mlx/backend/metal/kernels/steel/utils/integral_constant.h +134 -0
data/mlx/mlx/backend/metal/kernels/steel/utils/type_traits.h +55 -0
data/mlx/mlx/backend/metal/kernels/steel/utils.h +42 -0
data/mlx/mlx/backend/metal/kernels/ternary.h +145 -0
data/mlx/mlx/backend/metal/kernels/ternary.metal +48 -0
data/mlx/mlx/backend/metal/kernels/ternary_ops.h +10 -0
data/mlx/mlx/backend/metal/kernels/unary.h +63 -0
data/mlx/mlx/backend/metal/kernels/unary.metal +115 -0
data/mlx/mlx/backend/metal/kernels/unary_ops.h +454 -0
data/mlx/mlx/backend/metal/kernels/utils.h +445 -0
data/mlx/mlx/backend/metal/kernels.h +375 -0
data/mlx/mlx/backend/metal/logsumexp.cpp +95 -0
data/mlx/mlx/backend/metal/make_compiled_preamble.sh +120 -0
data/mlx/mlx/backend/metal/matmul.cpp +2572 -0
data/mlx/mlx/backend/metal/matmul.h +144 -0
data/mlx/mlx/backend/metal/metal.cpp +50 -0
data/mlx/mlx/backend/metal/metal.h +25 -0
data/mlx/mlx/backend/metal/no_metal.cpp +42 -0
data/mlx/mlx/backend/metal/nojit_kernels.cpp +414 -0
data/mlx/mlx/backend/metal/normalization.cpp +433 -0
data/mlx/mlx/backend/metal/primitives.cpp +242 -0
data/mlx/mlx/backend/metal/quantized.cpp +1651 -0
data/mlx/mlx/backend/metal/reduce.cpp +1038 -0
data/mlx/mlx/backend/metal/reduce.h +41 -0
data/mlx/mlx/backend/metal/resident.cpp +100 -0
data/mlx/mlx/backend/metal/resident.h +32 -0
data/mlx/mlx/backend/metal/rope.cpp +165 -0
data/mlx/mlx/backend/metal/scaled_dot_product_attention.cpp +798 -0
data/mlx/mlx/backend/metal/scan.cpp +145 -0
data/mlx/mlx/backend/metal/scan.h +17 -0
data/mlx/mlx/backend/metal/slicing.cpp +99 -0
data/mlx/mlx/backend/metal/softmax.cpp +87 -0
data/mlx/mlx/backend/metal/sort.cpp +368 -0
data/mlx/mlx/backend/metal/ternary.cpp +160 -0
data/mlx/mlx/backend/metal/ternary.h +21 -0
data/mlx/mlx/backend/metal/unary.cpp +161 -0
data/mlx/mlx/backend/metal/unary.h +21 -0
data/mlx/mlx/backend/metal/utils.cpp +77 -0
data/mlx/mlx/backend/metal/utils.h +99 -0
data/mlx/mlx/backend/no_cpu/CMakeLists.txt +7 -0
data/mlx/mlx/backend/no_cpu/compiled.cpp +24 -0
data/mlx/mlx/backend/no_cpu/device_info.cpp +22 -0
data/mlx/mlx/backend/no_cpu/primitives.cpp +146 -0
data/mlx/mlx/backend/no_gpu/CMakeLists.txt +8 -0
data/mlx/mlx/backend/no_gpu/allocator.cpp +134 -0
data/mlx/mlx/backend/no_gpu/apple_memory.h +16 -0
data/mlx/mlx/backend/no_gpu/device_info.cpp +22 -0
data/mlx/mlx/backend/no_gpu/eval.cpp +24 -0
data/mlx/mlx/backend/no_gpu/event.cpp +53 -0
data/mlx/mlx/backend/no_gpu/fence.cpp +54 -0
data/mlx/mlx/backend/no_gpu/linux_memory.h +22 -0
data/mlx/mlx/backend/no_gpu/primitives.cpp +185 -0
data/mlx/mlx/compile.cpp +1243 -0
data/mlx/mlx/compile.h +45 -0
data/mlx/mlx/compile_impl.h +70 -0
data/mlx/mlx/device.cpp +72 -0
data/mlx/mlx/device.h +56 -0
data/mlx/mlx/distributed/CMakeLists.txt +14 -0
data/mlx/mlx/distributed/distributed.cpp +197 -0
data/mlx/mlx/distributed/distributed.h +61 -0
data/mlx/mlx/distributed/distributed_impl.h +59 -0
data/mlx/mlx/distributed/jaccl/CMakeLists.txt +12 -0
data/mlx/mlx/distributed/jaccl/jaccl.cpp +178 -0
data/mlx/mlx/distributed/jaccl/jaccl.h +12 -0
data/mlx/mlx/distributed/jaccl/mesh.cpp +451 -0
data/mlx/mlx/distributed/jaccl/mesh.h +122 -0
data/mlx/mlx/distributed/jaccl/no_jaccl.cpp +20 -0
data/mlx/mlx/distributed/jaccl/ring.cpp +692 -0
data/mlx/mlx/distributed/jaccl/ring.h +178 -0
data/mlx/mlx/distributed/jaccl/utils.cpp +329 -0
data/mlx/mlx/distributed/jaccl/utils.h +342 -0
data/mlx/mlx/distributed/mpi/CMakeLists.txt +5 -0
data/mlx/mlx/distributed/mpi/mpi.cpp +501 -0
data/mlx/mlx/distributed/mpi/mpi.h +12 -0
data/mlx/mlx/distributed/mpi/mpi_declarations.h +28 -0
data/mlx/mlx/distributed/mpi/no_mpi.cpp +20 -0
data/mlx/mlx/distributed/nccl/CMakeLists.txt +26 -0
data/mlx/mlx/distributed/nccl/nccl.cpp +443 -0
data/mlx/mlx/distributed/nccl/nccl.h +12 -0
data/mlx/mlx/distributed/nccl/nccl_stub/CMakeLists.txt +1 -0
data/mlx/mlx/distributed/nccl/nccl_stub/nccl_stubs.cpp +54 -0
data/mlx/mlx/distributed/nccl/no_nccl.cpp +20 -0
data/mlx/mlx/distributed/ops.cpp +186 -0
data/mlx/mlx/distributed/ops.h +57 -0
data/mlx/mlx/distributed/primitives.cpp +95 -0
data/mlx/mlx/distributed/primitives.h +156 -0
data/mlx/mlx/distributed/reduction_ops.h +38 -0
data/mlx/mlx/distributed/ring/CMakeLists.txt +5 -0
data/mlx/mlx/distributed/ring/no_ring.cpp +20 -0
data/mlx/mlx/distributed/ring/ring.cpp +870 -0
data/mlx/mlx/distributed/ring/ring.h +12 -0
data/mlx/mlx/distributed/utils.cpp +206 -0
data/mlx/mlx/distributed/utils.h +67 -0
data/mlx/mlx/dtype.cpp +197 -0
data/mlx/mlx/dtype.h +116 -0
data/mlx/mlx/dtype_utils.cpp +42 -0
data/mlx/mlx/dtype_utils.h +119 -0
data/mlx/mlx/einsum.cpp +941 -0
data/mlx/mlx/einsum.h +23 -0
data/mlx/mlx/event.h +58 -0
data/mlx/mlx/export.cpp +1130 -0
data/mlx/mlx/export.h +137 -0
data/mlx/mlx/export_impl.h +99 -0
data/mlx/mlx/fast.cpp +941 -0
data/mlx/mlx/fast.h +103 -0
data/mlx/mlx/fast_primitives.h +427 -0
data/mlx/mlx/fence.h +39 -0
data/mlx/mlx/fft.cpp +262 -0
data/mlx/mlx/fft.h +159 -0
data/mlx/mlx/graph_utils.cpp +175 -0
data/mlx/mlx/graph_utils.h +67 -0
data/mlx/mlx/io/CMakeLists.txt +25 -0
data/mlx/mlx/io/gguf.cpp +470 -0
data/mlx/mlx/io/gguf.h +20 -0
data/mlx/mlx/io/gguf_quants.cpp +164 -0
data/mlx/mlx/io/load.cpp +397 -0
data/mlx/mlx/io/load.h +175 -0
data/mlx/mlx/io/no_gguf.cpp +20 -0
data/mlx/mlx/io/no_safetensors.cpp +37 -0
data/mlx/mlx/io/safetensors.cpp +234 -0
data/mlx/mlx/io.h +61 -0
data/mlx/mlx/linalg.cpp +708 -0
data/mlx/mlx/linalg.h +115 -0
data/mlx/mlx/memory.h +80 -0
data/mlx/mlx/mlx.h +25 -0
data/mlx/mlx/ops.cpp +6094 -0
data/mlx/mlx/ops.h +1610 -0
data/mlx/mlx/primitives.cpp +5850 -0
data/mlx/mlx/primitives.h +2525 -0
data/mlx/mlx/random.cpp +492 -0
data/mlx/mlx/random.h +283 -0
data/mlx/mlx/scheduler.cpp +73 -0
data/mlx/mlx/scheduler.h +189 -0
data/mlx/mlx/small_vector.h +540 -0
data/mlx/mlx/stream.h +42 -0
data/mlx/mlx/threadpool.h +133 -0
data/mlx/mlx/transforms.cpp +1065 -0
data/mlx/mlx/transforms.h +231 -0
data/mlx/mlx/transforms_impl.h +88 -0
data/mlx/mlx/types/bf16.h +187 -0
data/mlx/mlx/types/complex.h +113 -0
data/mlx/mlx/types/fp16.h +234 -0
data/mlx/mlx/types/half_types.h +58 -0
data/mlx/mlx/types/limits.h +70 -0
data/mlx/mlx/utils.cpp +302 -0
data/mlx/mlx/utils.h +174 -0
data/mlx/mlx/version.cpp +11 -0
data/mlx/mlx/version.h +22 -0
data/mlx/mlx.pc.in +52 -0
metadata +643 -0

data/mlx/mlx/transforms.cpp ADDED Viewed

@@ -0,0 +1,1065 @@
+// Copyright © 2023-2024 Apple Inc.
+#include <algorithm>
+#include <deque>
+#include <future>
+#include <numeric>
+#include <set>
+#include <sstream>
+#include <stack>
+#include <unordered_map>
+#include <unordered_set>
+#include "mlx/backend/cpu/eval.h"
+#include "mlx/backend/gpu/eval.h"
+#include "mlx/fence.h"
+#include "mlx/memory.h"
+#include "mlx/ops.h"
+#include "mlx/primitives.h"
+#include "mlx/scheduler.h"
+#include "mlx/transforms.h"
+#include "mlx/transforms_impl.h"
+#include "mlx/utils.h"
+namespace mlx::core {
+static constexpr int MAX_ACTIVE_TASKS = 10;
+/* This class is only meant to be used in eval
+ * for synchronizing with the main thread. */
+class Synchronizer : public Primitive {
+ public:
+  explicit Synchronizer(Stream stream) : Primitive(stream) {}
+  void eval_cpu(const std::vector<array>&, std::vector<array>&) override {}
+  void eval_gpu(const std::vector<array>&, std::vector<array>&) override {}
+  DEFINE_NAME(Synchronize);
+};
+// Initialize the static tracing members from transforms_impl.h
+//
+// These are used to implement the in_tracing() function the returns true if we
+// are currently under a function transformation and the retain_graph()
+// function which returns true if we are forced to retain the graph during
+// evaluation.
+std::vector<std::pair<char, char>>& detail::InTracing::trace_stack() {
+  static std::vector<std::pair<char, char>> trace_stack_;
+  return trace_stack_;
+}
+int detail::InTracing::grad_counter{0};
+int detail::RetainGraph::tracing_counter{0};
+array eval_impl(std::vector<array> outputs, bool async) {
+  std::deque<array> tape;
+  // Make an effort to choose a good output stream
+  Stream stream = default_stream(default_device());
+  for (auto& o : outputs) {
+    if (o.status() == array::Status::unscheduled && o.has_primitive()) {
+      stream = o.primitive().stream();
+      break;
+    }
+  }
+  // Map of array id that needs fence and stream it's computed on
+  std::unordered_map<uintptr_t, std::pair<uint32_t, bool>> needs_fence;
+  auto synchronizer = array(
+      {}, bool_, std::make_shared<Synchronizer>(stream), std::move(outputs));
+  // Stream fences for inter-stream synchronization
+  std::unordered_map<uint32_t, Fence> fences;
+  // Stream events for synchronization after eval
+  std::unordered_map<uint32_t, Event> events;
+  {
+    auto e = Event{stream};
+    e.set_value(1);
+    synchronizer.attach_event(e);
+    events.emplace(stream.index, std::move(e));
+  }
+  {
+    // Record the degree of each input
+    std::unordered_map<std::uintptr_t, int> cache;
+    std::stack<std::pair<std::reference_wrapper<array>, int>> dfs;
+    dfs.emplace(synchronizer, 0);
+    while (!dfs.empty()) {
+      auto& [a_ref, idx] = dfs.top();
+      auto& a = a_ref.get();
+      if (idx < a.inputs().size()) {
+        // Add an input, and continue
+        auto& in = a.inputs()[idx++];
+        if (in.status() == array::Status::unscheduled) {
+          if (async && in.is_tracer()) {
+            throw std::invalid_argument(
+                "[async_eval] Not allowed inside a graph transformation.");
+          }
+          if (!in.has_primitive()) {
+            if (in.is_tracer()) {
+              throw std::invalid_argument(
+                  "[eval] Attempting to eval an array during function"
+                  " transformations like compile or vmap is not allowed.");
+            }
+            throw std::runtime_error(
+                "[eval] Attempting to eval an array without a primitive.\n"
+                "If you are compiling a function, make sure all the inputs "
+                "and outputs are captured:\n"
+                "https://ml-explore.github.io/mlx/build/html/usage/compile.html#pure-functions.\n"
+                "If you are not using compile, this may be a bug. "
+                "Please file an issue here:\n"
+                "https://github.com/ml-explore/mlx/issues.");
+          }
+          if (a.primitive().stream() != in.primitive().stream()) {
+            bool device_switch =
+                a.primitive().stream().device != in.primitive().stream().device;
+            auto [it, inserted] = needs_fence.emplace(
+                in.id(),
+                std::make_pair(in.primitive().stream().index, device_switch));
+            if (!inserted) {
+              it->second.second |= device_switch;
+            }
+          }
+        }
+        // All siblings have the same degree
+        auto cache_it = cache.find(in.id());
+        if (cache_it == cache.end()) {
+          dfs.emplace(in, 0);
+          cache.insert({in.id(), 1});
+          for (auto& s : in.siblings()) {
+            cache.insert({s.id(), 1});
+          }
+        } else {
+          cache_it->second++;
+          for (auto& s : in.siblings()) {
+            cache[s.id()]++;
+          }
+        }
+        continue;
+      }
+      if ((a.status() != array::Status::unscheduled) && !a.is_tracer() &&
+          a.has_primitive()) {
+        // If the array is evaluated and is no longer a tracer, detach it
+        a.detach();
+      }
+      dfs.pop();
+    }
+    // Build the tape in BFS order with a width limit
+    int max_width = env::bfs_max_width();
+    dfs = std::stack<std::pair<std::reference_wrapper<array>, int>>();
+    tape.push_back(synchronizer);
+    for (int i = 0; !cache.empty() && (i < tape.size() || !dfs.empty());) {
+      auto& a = (i >= tape.size()) ? dfs.top().first.get() : tape[i];
+      int j = 0;
+      if (i >= tape.size()) {
+        j = dfs.top().second;
+        dfs.pop();
+      } else {
+        i++;
+      }
+      for (; j < a.inputs().size(); ++j) {
+        auto& in = a.inputs()[j];
+        if (in.status() != array::Status::unscheduled) {
+          continue;
+        }
+        // If the width limit is exceeded, push the array on the stack
+        // and go down a level
+        if ((tape.size() - i) >= max_width) {
+          dfs.emplace(a, j);
+          break;
+        }
+        auto it = cache.find(in.id());
+        it->second -= 1;
+        if (it->second != 0) {
+          for (auto& s : in.siblings()) {
+            cache[s.id()] -= 1;
+          }
+          continue;
+        }
+        // Remove input and siblings from cache
+        cache.erase(it);
+        for (auto& s : in.siblings()) {
+          cache.erase(s.id());
+        }
+        tape.push_back(in);
+      }
+    }
+  }
+  std::unordered_set<int> open_streams;
+  while (!tape.empty()) {
+    auto arr = std::move(tape.back());
+    tape.pop_back();
+    auto stream = arr.primitive().stream();
+    open_streams.insert(stream.index);
+    if (async) {
+      // Lookup corresponding event
+      auto e = events.find(stream.index);
+      if (e == events.end()) {
+        e = events.emplace(stream.index, Event{stream}).first;
+      }
+      e->second.set_value(1);
+      arr.attach_event(e->second);
+      for (auto& s : arr.siblings()) {
+        s.attach_event(e->second);
+      }
+    }
+    for (auto& in : arr.inputs()) {
+      if (auto it = needs_fence.find(in.id()); it != needs_fence.end()) {
+        // Use fence to wait within a single eval
+        // Get the input array's stream fence and wait on the
+        // output arrays stream
+        fences[it->second.first].wait(stream, in);
+      } else if (in.event().valid()) {
+        if (in.event().is_signaled()) {
+          in.detach_event();
+        } else if (in.event().stream() != stream) {
+          // Use event to wait across async eval
+          in.event().wait(stream);
+        }
+      }
+    }
+    if (arr.primitive().device() == Device::gpu) {
+      gpu::eval(arr);
+    } else {
+      cpu::eval(arr);
+    }
+    if (scheduler::n_active_tasks() > MAX_ACTIVE_TASKS ||
+        (get_active_memory() > get_memory_limit() &&
+         scheduler::n_active_tasks() > 0)) {
+      // Commit any open streams
+      for (auto i : open_streams) {
+        auto s = get_stream(i);
+        if (s.device == Device::gpu) {
+          gpu::finalize(s);
+        }
+      }
+      scheduler::wait_for_one();
+      while (get_active_memory() > get_memory_limit() &&
+             scheduler::n_active_tasks() > 0) {
+        scheduler::wait_for_one();
+      }
+    }
+    auto maybe_update_fence = [&fences, &needs_fence, stream](const array& a) {
+      if (auto nf = needs_fence.find(a.id()); nf != needs_fence.end()) {
+        auto it = fences.find(stream.index);
+        if (it == fences.end()) {
+          it = fences.emplace(stream.index, Fence{stream}).first;
+        }
+        it->second.update(stream, a, nf->second.second);
+      }
+    };
+    arr.set_status(array::Status::evaluated);
+    // TODO Maybe always want the fence coherent kernel in the same cbuf
+    // as the other kernels?
+    maybe_update_fence(arr);
+    for (auto& sib : arr.siblings()) {
+      sib.set_status(array::Status::evaluated);
+      maybe_update_fence(sib);
+    }
+    if (!arr.is_tracer()) {
+      arr.detach();
+    }
+  }
+  // Signal the event in its stream
+  for (auto i : open_streams) {
+    auto s = get_stream(i);
+    if (auto e = events.find(i); e != events.end()) {
+      e->second.signal(s);
+    }
+    if (s.device == Device::gpu) {
+      gpu::finalize(s);
+    }
+  }
+  return synchronizer;
+}
+void async_eval(std::vector<array> outputs) {
+  if (outputs.empty()) {
+    return;
+  }
+  if (std::none_of(outputs.begin(), outputs.end(), [](array& x) {
+        return x.status() == array::Status::unscheduled;
+      })) {
+    return;
+  }
+  eval_impl(std::move(outputs), true);
+}
+void eval(std::vector<array> outputs) {
+  if (outputs.empty()) {
+    return;
+  }
+  if (std::none_of(outputs.begin(), outputs.end(), [](array& x) {
+        return x.status() == array::Status::unscheduled;
+      })) {
+    for (auto& x : outputs) {
+      x.wait();
+    }
+    return;
+  }
+  eval_impl(std::move(outputs), false).wait();
+}
+std::pair<std::vector<array>, std::vector<array>> vjp(
+    const std::function<std::vector<array>(const std::vector<array>&)>& fun,
+    const std::vector<array>& primals,
+    const std::vector<array>& cotans,
+    const std::vector<int>& argnums) {
+  // Set the global tracing flag.
+  detail::InTracing in_tracing{false, true};
+  // Make tracers from given primals
+  std::vector<array> primals_;
+  for (auto& p : primals) {
+    auto s = p.has_primitive() ? p.primitive().stream()
+                               : default_stream(default_device());
+    primals_.push_back(copy(p, s)); // Does not do a deep copy
+    primals_.back().set_tracer(true);
+  }
+  // Pass tracer primals through the function
+  // Any variables that depend on the primals are marked as tracers
+  auto outputs = fun(primals_);
+  // Map outputs to passed cotans while ignoring the outputs
+  // that have stop_gradient called on them
+  int cotan_index = 0;
+  std::vector<std::pair<int, int>> output_cotan_pairs;
+  for (int i = 0; i < outputs.size(); ++i) {
+    auto& out = outputs[i];
+    if (out.has_primitive()) {
+      if (auto& p = out.primitive(); typeid(p) == typeid(StopGradient)) {
+        continue;
+      }
+    }
+    if (cotan_index >= cotans.size()) {
+      std::ostringstream msg;
+      msg << "[vjp] Number of outputs to compute gradients for ("
+          << outputs.size() << ") does not match number of cotangents ("
+          << cotans.size() << ").";
+      throw std::invalid_argument(msg.str());
+    }
+    if (out.shape() != cotans[cotan_index].shape()) {
+      std::ostringstream msg;
+      msg << "[vjp] Output shape " << out.shape()
+          << " does not match cotangent shape " << cotans[cotan_index].shape()
+          << ".";
+      if (outputs.size() == 1 && out.size() == 1) {
+        msg << " If you are using grad your function must return a scalar.";
+      }
+      throw std::invalid_argument(msg.str());
+    }
+    output_cotan_pairs.emplace_back(i, cotan_index++);
+  }
+  // Topologically sort the compute graph, add graph nodes
+  // to the tape which need a gradient.
+  std::unordered_set<std::uintptr_t> cache;
+  std::unordered_set<std::uintptr_t> calc_grad;
+  for (int i = 0, j = 0; i < primals_.size(); ++i) {
+    auto& primal = primals_[i];
+    primal.set_tracer(false);
+    cache.insert(primal.id());
+    if (j < argnums.size() && argnums[j] == i) {
+      j++;
+      calc_grad.insert(primal.id());
+    }
+  }
+  std::vector<array> tape;
+  std::function<void(array&)> recurse;
+  recurse = [&](auto& a) {
+    // Check if visited and add to cache if not
+    if (auto inserted = cache.insert(a.id()); !inserted.second) {
+      return;
+    }
+    a.set_tracer(false);
+    for (auto& s : a.siblings()) {
+      s.set_tracer(false);
+      cache.insert(s.id());
+    }
+    for (auto& input : a.inputs()) {
+      recurse(input);
+    }
+    // Stop grad
+    if (a.has_primitive()) {
+      if (auto& p = a.primitive(); typeid(p) == typeid(StopGradient)) {
+        return;
+      }
+    }
+    // Calculate gradient if any inputs require gradient
+    for (auto& input : a.inputs()) {
+      if (calc_grad.find(input.id()) != calc_grad.end()) {
+        tape.push_back(a);
+        calc_grad.insert(a.id());
+        for (auto& s : a.siblings()) {
+          calc_grad.insert(s.id());
+        }
+        break;
+      }
+    }
+  };
+  for (auto out : outputs) {
+    recurse(out);
+  }
+  // Run the tape backwards, computing vector-jacobian
+  // products for each primitive
+  std::unordered_map<std::uintptr_t, array> cotan_map;
+  for (auto [out_idx, cotan_idx] : output_cotan_pairs) {
+    auto& o = outputs[out_idx];
+    auto s = o.has_primitive() ? o.primitive().stream()
+                               : default_stream(default_device());
+    cotan_map.insert({o.id(), astype(cotans[cotan_idx], o.dtype(), s)});
+  }
+  for (auto it = tape.rbegin(); it != tape.rend(); ++it) {
+    auto& a = *it;
+    // Get the arguments whose gradients are needed
+    std::vector<int> argnums;
+    for (int i = 0; i < a.inputs().size(); ++i) {
+      if (calc_grad.find(a.inputs()[i].id()) != calc_grad.end()) {
+        argnums.push_back(i);
+      }
+    }
+    // Check if any of the array or its siblings have cotangents,
+    // if not, we can skip this primitive
+    auto outputs = a.outputs();
+    bool has_cotans =
+        std::any_of(outputs.cbegin(), outputs.cend(), [&cotan_map](auto& s) {
+          return cotan_map.find(s.id()) != cotan_map.end();
+        });
+    if (!has_cotans) {
+      continue;
+    }
+    auto s = a.primitive().stream();
+    std::vector<array> cotangents{};
+    for (auto& o : outputs) {
+      if (auto cotan_it = cotan_map.find(o.id()); cotan_it != cotan_map.end()) {
+        cotangents.push_back(cotan_map.extract(cotan_it).mapped());
+      } else {
+        cotangents.push_back(zeros_like(o, s));
+      }
+    }
+    std::vector<array> vjps;
+    {
+      detail::RetainGraph retain;
+      vjps = a.primitive().vjp(a.inputs(), cotangents, argnums, outputs);
+    }
+    // Accumulate the vector-jacobian products for each input
+    for (int i = 0; i < argnums.size(); ++i) {
+      auto in_id = a.inputs()[argnums[i]].id();
+      if (auto cotan_it = cotan_map.find(in_id); cotan_it != cotan_map.end()) {
+        cotan_it->second = add(cotan_it->second, vjps[i], s);
+      } else {
+        cotan_map.insert({in_id, vjps[i]});
+      }
+    }
+  }
+  std::vector<array> vjps;
+  for (auto arg : argnums) {
+    auto& primal = primals_[arg];
+    if (auto cotan_it = cotan_map.find(primal.id());
+        cotan_it != cotan_map.end()) {
+      vjps.push_back(cotan_it->second);
+    } else {
+      auto s = primal.has_primitive() ? primal.primitive().stream()
+                                      : default_stream(default_device());
+      vjps.push_back(zeros_like(primal, s));
+    }
+  }
+  return {outputs, vjps};
+}
+std::pair<std::vector<array>, std::vector<array>> vjp(
+    const std::function<std::vector<array>(const std::vector<array>&)>& fun,
+    const std::vector<array>& primals,
+    const std::vector<array>& cotans) {
+  std::vector<int> argnums(primals.size());
+  std::iota(argnums.begin(), argnums.end(), 0);
+  return vjp(fun, primals, cotans, argnums);
+}
+std::pair<array, array> vjp(
+    const std::function<array(const array&)>& fun,
+    const array& primal,
+    const array& cotan) {
+  auto vec_fun = [fun](const std::vector<array>& inputs) {
+    return std::vector<array>{fun(inputs[0])};
+  };
+  auto [outputs, vjps] = vjp(vec_fun, {primal}, {cotan});
+  return {outputs[0], vjps[0]};
+}
+std::pair<std::vector<array>, std::vector<array>> jvp(
+    const std::function<std::vector<array>(const std::vector<array>&)>& fun,
+    const std::vector<array>& primals,
+    const std::vector<array>& tangents) {
+  // Set the global tracing flag.
+  detail::InTracing in_tracing{false, true};
+  if (primals.size() != tangents.size()) {
+    throw std::invalid_argument(
+        "[jvp] Number of inputs does not match number of tangents.");
+  }
+  for (int i = 0; i < primals.size(); ++i) {
+    if (primals[i].shape() != tangents[i].shape()) {
+      throw std::invalid_argument(
+          "[jvp] Input shape does not match shape of tangent.");
+    }
+  }
+  std::vector<array> primals_;
+  for (auto& p : primals) {
+    auto s = p.has_primitive() ? p.primitive().stream()
+                               : default_stream(default_device());
+    primals_.push_back(copy(p, s)); // Does not do a deep copy
+    primals_.back().set_tracer(true);
+  }
+  auto outputs = fun(primals_);
+  // Topologically sort the compute graph, record outputs
+  // in the tape if a gradient is needed.
+  std::unordered_set<std::uintptr_t> cache;
+  std::unordered_set<std::uintptr_t> calc_grad;
+  for (auto& primal : primals_) {
+    primal.set_tracer(false);
+    calc_grad.insert(primal.id());
+    cache.insert(primal.id());
+  }
+  std::vector<array> tape;
+  std::function<void(array&)> recurse;
+  recurse = [&](auto& a) {
+    // Check if visited and add to cache if not
+    if (auto inserted = cache.insert(a.id()); !inserted.second) {
+      return;
+    }
+    a.set_tracer(false);
+    for (auto& s : a.siblings()) {
+      s.set_tracer(false);
+      cache.insert(s.id());
+    }
+    for (auto input : a.inputs()) {
+      recurse(input);
+    }
+    // Stop grad
+    if (a.has_primitive()) {
+      if (auto& p = a.primitive(); typeid(p) == typeid(StopGradient)) {
+        return;
+      }
+    }
+    // Calculate gradient if any inputs require gradient
+    for (auto& input : a.inputs()) {
+      if (calc_grad.find(input.id()) != calc_grad.end()) {
+        tape.push_back(a);
+        calc_grad.insert(a.id());
+        for (auto& s : a.siblings()) {
+          calc_grad.insert(s.id());
+        }
+        break;
+      }
+    }
+  };
+  for (auto out : outputs) {
+    recurse(out);
+  }
+  std::unordered_map<std::uintptr_t, array> tan_map;
+  for (int i = 0; i < primals_.size(); ++i) {
+    tan_map.insert({primals_[i].id(), tangents[i]});
+  }
+  for (auto& a : tape) {
+    // Get the arguments used in the jvp
+    std::vector<int> argnums;
+    std::vector<array> tangents;
+    for (int i = 0; i < a.inputs().size(); ++i) {
+      if (auto it = tan_map.find(a.inputs()[i].id()); it != tan_map.end()) {
+        argnums.push_back(i);
+        tangents.push_back(it->second);
+      }
+    }
+    auto jvps = a.primitive().jvp(a.inputs(), tangents, argnums);
+    auto outputs = a.outputs();
+    for (int i = 0; i < jvps.size(); ++i) {
+      tan_map.insert({outputs[i].id(), jvps[i]});
+    }
+  }
+  std::vector<array> jvps;
+  for (auto& out : outputs) {
+    if (auto it = tan_map.find(out.id()); it != tan_map.end()) {
+      jvps.push_back(it->second);
+    } else {
+      auto s = out.has_primitive() ? out.primitive().stream()
+                                   : default_stream(default_device());
+      jvps.push_back(zeros_like(out, s));
+    }
+  }
+  return {outputs, jvps};
+}
+std::pair<array, array> jvp(
+    const std::function<array(const array&)>& fun,
+    const array& primal,
+    const array& tangent) {
+  auto vec_fun = [fun](const std::vector<array>& inputs) {
+    return std::vector<array>{fun(inputs[0])};
+  };
+  auto [outputs, jvps] = jvp(vec_fun, {primal}, {tangent});
+  return {outputs[0], jvps[0]};
+}
+ValueAndGradFn value_and_grad(
+    const std::function<std::vector<array>(const std::vector<array>&)>& fun,
+    const std::vector<int>& argnums) {
+  if (argnums.empty()) {
+    throw std::invalid_argument("[grad] Must specify at least one argument.");
+  }
+  return [fun, argnums](const std::vector<array>& inputs) {
+    std::set<int> args;
+    for (auto& arg : argnums) {
+      args.insert(arg < 0 ? arg + inputs.size() : arg);
+    }
+    if (args.size() != argnums.size()) {
+      throw std::invalid_argument(
+          "[grad] Repeat argument number not allowed in grad.");
+    }
+    if (*args.begin() < 0 || *args.rbegin() >= inputs.size()) {
+      std::ostringstream msg;
+      msg << "[grad] Invalid argument number for function with "
+          << inputs.size() << " inputs.";
+      throw std::invalid_argument(msg.str());
+    }
+    std::vector<int> sorted_argnums(args.begin(), args.end());
+    auto gfun = [&fun](const std::vector<array>& inputs) {
+      auto outputs = fun(inputs);
+      for (int i = 1; i < outputs.size(); i++) {
+        auto& out = outputs[i];
+        auto s = out.has_primitive() ? out.primitive().stream()
+                                     : default_stream(default_device());
+        outputs[i] = stop_gradient(out, s);
+      }
+      return outputs;
+    };
+    // Set the incoming gradient to float32, vjp will cast it to the output type
+    auto [outputs, grads] = vjp(gfun, inputs, {array(1.0f)}, sorted_argnums);
+    return std::make_pair(outputs, grads);
+  };
+}
+namespace detail {
+std::pair<std::vector<array>, std::vector<array>> vmap_trace(
+    const std::function<std::vector<array>(const std::vector<array>&)>& fun,
+    const std::vector<array>& inputs,
+    const std::vector<int>& in_axes) {
+  // Set the global tracing flag.
+  detail::InTracing in_tracing;
+  if (in_axes.size() != inputs.size()) {
+    std::stringstream ss;
+    ss << "[vmap] The number of in axes (" << in_axes.size()
+       << ") must match the number of inputs (" << inputs.size() << ").";
+    throw std::invalid_argument(ss.str());
+  }
+  // Some error checking and get the vmap axis size
+  size_t vmap_ax_size;
+  for (int i = 0; i < inputs.size(); ++i) {
+    if (in_axes[i] != -1) {
+      if (inputs[i].ndim() == 0) {
+        throw std::invalid_argument(
+            "[vmap] Cannot vmap an input with zero dimensions.");
+      }
+      if (in_axes[i] > inputs[i].ndim()) {
+        std::ostringstream msg;
+        msg << "[vmap] Axis " << in_axes[i] << " invalid for input with "
+            << inputs[i].ndim() << " dimensions.";
+        throw std::invalid_argument(msg.str());
+      }
+      vmap_ax_size = inputs[i].shape(in_axes[i]);
+    }
+  }
+  // Check that all vmapped axes have the same size
+  for (int i = 0; i < inputs.size(); ++i) {
+    if (in_axes[i] != -1) {
+      if (size_t in_ax = inputs[i].shape(in_axes[i]); vmap_ax_size != in_ax) {
+        std::ostringstream msg;
+        msg << "[vmap] Inconsistent axis sizes: " << in_ax << " and "
+            << vmap_ax_size << ".";
+        throw std::invalid_argument(msg.str());
+      }
+    }
+  }
+  // Run the function on placeholder inputs
+  // to get the original graph
+  std::vector<array> s_inputs;
+  for (int i = 0; i < inputs.size(); ++i) {
+    if (in_axes[i] != -1) {
+      auto shape = inputs[i].shape();
+      shape.erase(shape.begin() + in_axes[i]);
+      array in(shape, inputs[i].dtype(), nullptr, {});
+      s_inputs.push_back(in);
+      s_inputs.back().set_tracer(true);
+    } else {
+      s_inputs.push_back(inputs[i]);
+    }
+  }
+  return {s_inputs, fun(s_inputs)};
+}
+std::vector<array> vmap_replace(
+    const std::vector<array>& inputs,
+    const std::vector<array>& s_inputs,
+    const std::vector<array>& s_outputs,
+    const std::vector<int>& in_axes,
+    const std::vector<int>& out_axes) {
+  if (out_axes.size() != s_outputs.size()) {
+    std::stringstream msg;
+    msg << "[vmap] The number of out axes (" << out_axes.size()
+        << ") must match the number of outputs (" << s_outputs.size() << ").";
+    throw std::invalid_argument(msg.str());
+  }
+  int vmap_size = -1;
+  for (int i = 0; i < inputs.size(); ++i) {
+    if (in_axes[i] >= 0) {
+      vmap_size = inputs[i].shape(in_axes[i]);
+      break;
+    }
+  }
+  if (vmap_size == -1) {
+    throw std::invalid_argument("At least one of in_axes must be non-None.");
+  }
+  std::unordered_map<std::uintptr_t, std::pair<array, int>> tmap;
+  std::unordered_set<std::uintptr_t> needs_vmap;
+  std::unordered_set<std::uintptr_t> cache;
+  for (int i = 0; i < s_inputs.size(); ++i) {
+    auto in = s_inputs[i];
+    if (in_axes[i] != -1) {
+      tmap.insert({in.id(), {inputs[i], in_axes[i]}});
+      needs_vmap.insert(in.id());
+      in.set_tracer(false);
+    }
+    cache.insert(in.id());
+  }
+  // Topologically sort the graph
+  std::vector<array> tape;
+  std::function<void(const array&)> recurse;
+  recurse = [&](const array& a) {
+    auto id = a.id();
+    if (cache.find(id) != cache.end()) {
+      return;
+    }
+    cache.insert(id);
+    for (auto& s : a.siblings()) {
+      cache.insert(s.id());
+    }
+    // Recurse on inputs
+    for (auto& input : a.inputs()) {
+      recurse(input);
+    }
+    // If any input needs a vmap, then the outputs also need
+    // a vmap
+    for (auto& input : a.inputs()) {
+      if (needs_vmap.find(input.id()) != needs_vmap.end()) {
+        tape.push_back(a);
+        tape.back().set_tracer(false);
+        needs_vmap.insert(a.id());
+        for (auto s : a.siblings()) {
+          needs_vmap.insert(s.id());
+          s.set_tracer(false);
+        }
+        break;
+      }
+    }
+  };
+  for (auto& out : s_outputs) {
+    if (out.has_primitive()) {
+      recurse(out);
+    }
+  }
+  // Transform each primitive in the graph with
+  // its vmap implementation
+  for (auto& a : tape) {
+    std::vector<array> v_inputs;
+    std::vector<int> v_axes;
+    for (auto& in : a.inputs()) {
+      auto map_it = tmap.find(in.id());
+      if (map_it != tmap.end()) {
+        v_inputs.push_back(map_it->second.first);
+        v_axes.push_back(map_it->second.second);
+      } else {
+        v_inputs.push_back(in);
+        v_axes.push_back(-1);
+      }
+    }
+    auto [v_outputs, v_out_axes] = a.primitive().vmap(v_inputs, v_axes);
+    // For each primitive's outputs add its id, the vout id and the vax
+    auto outputs = a.outputs();
+    for (int i = 0; i < v_outputs.size(); ++i) {
+      tmap.insert({outputs[i].id(), {v_outputs[i], v_out_axes[i]}});
+    }
+  }
+  // Populate the outputs and make sure all the output axes are
+  // in the right place
+  std::vector<array> outputs;
+  for (int i = 0; i < s_outputs.size(); ++i) {
+    if (auto map_it = tmap.find(s_outputs[i].id()); map_it != tmap.end()) {
+      auto& [out, vdim] = map_it->second;
+      if (vdim != out_axes[i]) {
+        if (out_axes[i] >= out.ndim()) {
+          std::ostringstream msg;
+          msg << "[vmap] Axis " << out_axes[i] << " invalid for output with "
+              << out.ndim() << " dimensions.";
+          throw std::invalid_argument(msg.str());
+        }
+        out = moveaxis(out, vdim, out_axes[i]);
+      }
+      outputs.push_back(out);
+    } else {
+      // When the output has no input dependencies
+      // use the size of the vmapped axis in the inputs to expand the output
+      array output = expand_dims(s_outputs[i], out_axes[i]);
+      output = repeat(output, vmap_size, out_axes[i]);
+      outputs.push_back(output);
+    }
+  }
+  return outputs;
+}
+} // namespace detail
+std::function<std::vector<array>(const std::vector<array>&)> vmap(
+    const std::function<std::vector<array>(const std::vector<array>&)>& fun,
+    const std::vector<int>& in_axes /* = {} */,
+    const std::vector<int>& out_axes /* = {} */) {
+  auto infer_axes = [](auto axes) {
+    return !axes.empty() &&
+        std::all_of(axes.begin(), axes.end(), [](int ax) { return ax < 0; });
+  };
+  if (infer_axes(in_axes) != infer_axes(out_axes)) {
+    throw std::invalid_argument(
+        "[vmap] Input (or output) axes must be "
+        "specified if output (or input) axes are.");
+  }
+  auto vfun = [fun, in_axes = in_axes, out_axes = out_axes](
+                  const std::vector<array>& inputs) mutable {
+    if (in_axes.size() == 0) {
+      in_axes.resize(inputs.size(), 0);
+    }
+    auto [trace_inputs, trace_outputs] =
+        detail::vmap_trace(fun, inputs, in_axes);
+    if (out_axes.size() == 0) {
+      out_axes.resize(trace_outputs.size(), 0);
+    }
+    return detail::vmap_replace(
+        inputs, trace_inputs, trace_outputs, in_axes, out_axes);
+  };
+  return vfun;
+}
+std::function<array(const array&, const array&)> vmap(
+    const std::function<array(const array&, const array&)>& fun,
+    int in_axis_a /* = 0 */,
+    int in_axis_b /* = 0 */,
+    int out_axis /* = 0 */) {
+  auto vfun = vmap(
+      [fun](const std::vector<array>& inputs) {
+        return std::vector<array>{fun(inputs[0], inputs[1])};
+      },
+      {in_axis_a, in_axis_b},
+      {out_axis});
+  return [vfun](const array& a, const array& b) { return vfun({a, b})[0]; };
+}
+std::function<array(const array&)> vmap(
+    const std::function<array(const array&)>& fun,
+    int in_axis /* = 0 */,
+    int out_axis /* = 0 */) {
+  auto vfun = vmap(
+      [fun](const std::vector<array>& inputs) {
+        return std::vector<array>{fun(inputs[0])};
+      },
+      {in_axis},
+      {out_axis});
+  return [vfun](const array& a) { return vfun({a})[0]; };
+}
+std::function<std::vector<array>(const std::vector<array>&)> custom_function(
+    std::function<std::vector<array>(const std::vector<array>&)> fun,
+    std::optional<std::function<std::vector<array>(
+        const std::vector<array>&,
+        const std::vector<array>&,
+        const std::vector<array>&)>> fun_vjp /* = std::nullopt */,
+    std::optional<std::function<std::vector<array>(
+        const std::vector<array>&,
+        const std::vector<array>&,
+        const std::vector<int>&)>> fun_jvp /* = std::nullopt */,
+    std::optional<std::function<std::pair<std::vector<array>, std::vector<int>>(
+        const std::vector<array>&,
+        const std::vector<int>&)>> fun_vmap /* = std::nullopt */) {
+  if (!fun_vjp.has_value() && !fun_jvp.has_value() && !fun_vmap.has_value()) {
+    return fun;
+  }
+  return [fun = std::move(fun),
+          fun_vjp = std::move(fun_vjp),
+          fun_jvp = std::move(fun_jvp),
+          fun_vmap = std::move(fun_vmap)](const std::vector<array>& args) {
+    // Compute the outputs
+    auto outputs = fun(args);
+    for (auto& out : outputs) {
+      out = stop_gradient(out);
+    }
+    // Prepare the inputs to the primitive
+    // We also add the outputs to the primitive so that it can "run" the forward
+    // pass.
+    std::vector<array> inputs = args;
+    inputs.insert(inputs.end(), outputs.begin(), outputs.end());
+    // Compute the stream. Maybe do it in a smarter way at some point in the
+    // future.
+    Stream s = (outputs[0].has_primitive()) ? outputs[0].primitive().stream()
+                                            : default_stream(default_device());
+    // Make the output info
+    std::vector<Shape> shapes;
+    std::vector<Dtype> dtypes;
+    for (const auto& out : outputs) {
+      shapes.emplace_back(out.shape());
+      dtypes.emplace_back(out.dtype());
+    }
+    return array::make_arrays(
+        std::move(shapes),
+        dtypes,
+        std::make_shared<CustomTransforms>(
+            to_stream(s),
+            outputs.size(),
+            // We use the passed vjp function or compute it from the inputs and
+            // passed cotangents. Note that this may be less efficient than
+            // using `fun` directly because we may not be able to fully reuse
+            // the outputs of the forward pass.
+            fun_vjp.value_or(
+                [fun](auto primals, auto cotangents, auto outputs) {
+                  auto [__, vjps] = vjp(fun, primals, cotangents);
+                  return vjps;
+                }),
+            // We use the passed jvp function or compute it from the primals
+            // and tangents. Similarly we can't take full advantage of the
+            // argnums so it is best to use `fun` directly if we don't need a
+            // custom transform.
+            //
+            // TODO: Use stop_gradient to make full use of argnums and not
+            //       waste computation.
+            fun_jvp.value_or([fun](auto primals, auto tangents, auto argnums) {
+              std::vector<array> all_tangents;
+              for (int i = 0, j = 0; i < primals.size(); i++) {
+                if (j < argnums.size() && i == argnums[j]) {
+                  all_tangents.emplace_back(tangents[j++]);
+                } else {
+                  all_tangents.emplace_back(zeros_like(primals[i]));
+                }
+              }
+              auto [__, jvps] = jvp(fun, primals, all_tangents);
+              return jvps;
+            }),
+            // Same as above, we use the passed vmap function or we compute it
+            // from `fun`. The output axes is selected to be all 0s which again
+            // may be suboptimal but the only thing we can do without any
+            // information for `fun`.
+            fun_vmap.value_or(
+                [fun, out_size = outputs.size()](auto inputs, auto in_axes)
+                    -> std::pair<std::vector<array>, std::vector<int>> {
+                  std::vector<int> out_axes(out_size, 0);
+                  return {vmap(fun, in_axes, out_axes)(inputs), out_axes};
+                })),
+        inputs);
+  };
+}
+std::function<std::vector<array>(const std::vector<array>&)> custom_vjp(
+    std::function<std::vector<array>(const std::vector<array>&)> fun,
+    std::function<std::vector<array>(
+        const std::vector<array>&,
+        const std::vector<array>&,
+        const std::vector<array>&)> fun_vjp) {
+  return custom_function(fun, fun_vjp, std::nullopt, std::nullopt);
+}
+std::function<std::vector<array>(const std::vector<array>&)> checkpoint(
+    std::function<std::vector<array>(const std::vector<array>&)> fun) {
+  auto vjp_fun = [fun](
+                     const std::vector<array>& primals,
+                     const std::vector<array>& cotangents,
+                     const std::vector<array>& outputs) -> std::vector<array> {
+    auto [__, vjps] = vjp(fun, depends(primals, outputs), cotangents);
+    return vjps;
+  };
+  return custom_vjp(fun, vjp_fun);
+}
+} // namespace mlx::core