RubyGems - mlx - Versions diffs - 0.30.7 - Mend

mlx 0.30.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (599) hide show

checksums.yaml +7 -0
data/ext/mlx/extconf.rb +94 -0
data/ext/mlx/native.cpp +8027 -0
data/lib/mlx/core.rb +1678 -0
data/lib/mlx/distributed_utils/common.rb +116 -0
data/lib/mlx/distributed_utils/config.rb +600 -0
data/lib/mlx/distributed_utils/launch.rb +490 -0
data/lib/mlx/extension.rb +24 -0
data/lib/mlx/nn/base.rb +388 -0
data/lib/mlx/nn/init.rb +140 -0
data/lib/mlx/nn/layers/activations.rb +336 -0
data/lib/mlx/nn/layers/base.rb +6 -0
data/lib/mlx/nn/layers/containers.rb +20 -0
data/lib/mlx/nn/layers/convolution.rb +120 -0
data/lib/mlx/nn/layers/convolution_transpose.rb +114 -0
data/lib/mlx/nn/layers/distributed.rb +309 -0
data/lib/mlx/nn/layers/dropout.rb +75 -0
data/lib/mlx/nn/layers/embedding.rb +28 -0
data/lib/mlx/nn/layers/linear.rb +79 -0
data/lib/mlx/nn/layers/normalization.rb +216 -0
data/lib/mlx/nn/layers/pooling.rb +167 -0
data/lib/mlx/nn/layers/positional_encoding.rb +126 -0
data/lib/mlx/nn/layers/quantized.rb +215 -0
data/lib/mlx/nn/layers/recurrent.rb +135 -0
data/lib/mlx/nn/layers/transformer.rb +330 -0
data/lib/mlx/nn/layers/upsample.rb +97 -0
data/lib/mlx/nn/layers.rb +18 -0
data/lib/mlx/nn/losses.rb +251 -0
data/lib/mlx/nn/utils.rb +167 -0
data/lib/mlx/nn.rb +12 -0
data/lib/mlx/optimizers/optimizers.rb +808 -0
data/lib/mlx/optimizers/schedulers.rb +62 -0
data/lib/mlx/optimizers.rb +9 -0
data/lib/mlx/utils.rb +171 -0
data/lib/mlx/version.rb +5 -0
data/lib/mlx.rb +64 -0
data/mlx/CMakeLists.txt +449 -0
data/mlx/cmake/FindCUDNN.cmake +177 -0
data/mlx/cmake/FindNCCL.cmake +54 -0
data/mlx/cmake/Findnvpl.cmake +3 -0
data/mlx/cmake/extension.cmake +50 -0
data/mlx/mlx/3rdparty/.clang-format +2 -0
data/mlx/mlx/3rdparty/pocketfft.h +3581 -0
data/mlx/mlx/CMakeLists.txt +107 -0
data/mlx/mlx/allocator.h +75 -0
data/mlx/mlx/api.h +29 -0
data/mlx/mlx/array.cpp +354 -0
data/mlx/mlx/array.h +647 -0
data/mlx/mlx/backend/common/CMakeLists.txt +9 -0
data/mlx/mlx/backend/common/binary.h +97 -0
data/mlx/mlx/backend/common/broadcasting.cpp +24 -0
data/mlx/mlx/backend/common/broadcasting.h +11 -0
data/mlx/mlx/backend/common/buffer_cache.h +158 -0
data/mlx/mlx/backend/common/common.cpp +305 -0
data/mlx/mlx/backend/common/compiled.cpp +243 -0
data/mlx/mlx/backend/common/compiled.h +77 -0
data/mlx/mlx/backend/common/copy.h +50 -0
data/mlx/mlx/backend/common/hadamard.h +109 -0
data/mlx/mlx/backend/common/load.cpp +57 -0
data/mlx/mlx/backend/common/matmul.h +67 -0
data/mlx/mlx/backend/common/reduce.cpp +154 -0
data/mlx/mlx/backend/common/reduce.h +59 -0
data/mlx/mlx/backend/common/slicing.cpp +71 -0
data/mlx/mlx/backend/common/slicing.h +20 -0
data/mlx/mlx/backend/common/ternary.h +85 -0
data/mlx/mlx/backend/common/unary.h +29 -0
data/mlx/mlx/backend/common/utils.cpp +231 -0
data/mlx/mlx/backend/common/utils.h +205 -0
data/mlx/mlx/backend/cpu/CMakeLists.txt +88 -0
data/mlx/mlx/backend/cpu/arange.h +28 -0
data/mlx/mlx/backend/cpu/arg_reduce.cpp +124 -0
data/mlx/mlx/backend/cpu/binary.cpp +269 -0
data/mlx/mlx/backend/cpu/binary.h +517 -0
data/mlx/mlx/backend/cpu/binary_ops.h +98 -0
data/mlx/mlx/backend/cpu/binary_two.h +166 -0
data/mlx/mlx/backend/cpu/cholesky.cpp +85 -0
data/mlx/mlx/backend/cpu/compiled.cpp +357 -0
data/mlx/mlx/backend/cpu/compiled_preamble.h +12 -0
data/mlx/mlx/backend/cpu/conv.cpp +1351 -0
data/mlx/mlx/backend/cpu/copy.cpp +386 -0
data/mlx/mlx/backend/cpu/copy.h +36 -0
data/mlx/mlx/backend/cpu/device_info.cpp +113 -0
data/mlx/mlx/backend/cpu/device_info.h +28 -0
data/mlx/mlx/backend/cpu/distributed.cpp +103 -0
data/mlx/mlx/backend/cpu/eig.cpp +281 -0
data/mlx/mlx/backend/cpu/eigh.cpp +241 -0
data/mlx/mlx/backend/cpu/encoder.cpp +16 -0
data/mlx/mlx/backend/cpu/encoder.h +67 -0
data/mlx/mlx/backend/cpu/eval.cpp +40 -0
data/mlx/mlx/backend/cpu/eval.h +12 -0
data/mlx/mlx/backend/cpu/fft.cpp +120 -0
data/mlx/mlx/backend/cpu/gemm.h +26 -0
data/mlx/mlx/backend/cpu/gemms/bnns.cpp +214 -0
data/mlx/mlx/backend/cpu/gemms/cblas.cpp +134 -0
data/mlx/mlx/backend/cpu/gemms/simd_bf16.cpp +45 -0
data/mlx/mlx/backend/cpu/gemms/simd_fp16.cpp +45 -0
data/mlx/mlx/backend/cpu/gemms/simd_gemm.h +139 -0
data/mlx/mlx/backend/cpu/hadamard.cpp +121 -0
data/mlx/mlx/backend/cpu/indexing.cpp +854 -0
data/mlx/mlx/backend/cpu/inverse.cpp +160 -0
data/mlx/mlx/backend/cpu/jit_compiler.cpp +166 -0
data/mlx/mlx/backend/cpu/jit_compiler.h +20 -0
data/mlx/mlx/backend/cpu/lapack.h +80 -0
data/mlx/mlx/backend/cpu/logsumexp.cpp +139 -0
data/mlx/mlx/backend/cpu/luf.cpp +120 -0
data/mlx/mlx/backend/cpu/make_compiled_preamble.ps1 +38 -0
data/mlx/mlx/backend/cpu/make_compiled_preamble.sh +41 -0
data/mlx/mlx/backend/cpu/masked_mm.cpp +608 -0
data/mlx/mlx/backend/cpu/matmul.cpp +166 -0
data/mlx/mlx/backend/cpu/primitives.cpp +478 -0
data/mlx/mlx/backend/cpu/qrf.cpp +147 -0
data/mlx/mlx/backend/cpu/quantized.cpp +1370 -0
data/mlx/mlx/backend/cpu/reduce.cpp +587 -0
data/mlx/mlx/backend/cpu/scan.cpp +338 -0
data/mlx/mlx/backend/cpu/select.cpp +95 -0
data/mlx/mlx/backend/cpu/simd/accelerate_fp16_simd.h +56 -0
data/mlx/mlx/backend/cpu/simd/accelerate_simd.h +329 -0
data/mlx/mlx/backend/cpu/simd/base_simd.h +319 -0
data/mlx/mlx/backend/cpu/simd/math.h +193 -0
data/mlx/mlx/backend/cpu/simd/neon_fp16_simd.h +212 -0
data/mlx/mlx/backend/cpu/simd/simd.h +4 -0
data/mlx/mlx/backend/cpu/simd/type.h +11 -0
data/mlx/mlx/backend/cpu/slicing.h +21 -0
data/mlx/mlx/backend/cpu/softmax.cpp +170 -0
data/mlx/mlx/backend/cpu/sort.cpp +481 -0
data/mlx/mlx/backend/cpu/svd.cpp +289 -0
data/mlx/mlx/backend/cpu/ternary.h +154 -0
data/mlx/mlx/backend/cpu/threefry.cpp +31 -0
data/mlx/mlx/backend/cpu/threefry.h +21 -0
data/mlx/mlx/backend/cpu/unary.cpp +238 -0
data/mlx/mlx/backend/cpu/unary.h +281 -0
data/mlx/mlx/backend/cpu/unary_ops.h +175 -0
data/mlx/mlx/backend/cuda/CMakeLists.txt +265 -0
data/mlx/mlx/backend/cuda/allocator.cpp +451 -0
data/mlx/mlx/backend/cuda/allocator.h +94 -0
data/mlx/mlx/backend/cuda/arange.cu +68 -0
data/mlx/mlx/backend/cuda/arg_reduce.cu +189 -0
data/mlx/mlx/backend/cuda/bin2h.cmake +150 -0
data/mlx/mlx/backend/cuda/binary/CMakeLists.txt +21 -0
data/mlx/mlx/backend/cuda/binary/add.cu +7 -0
data/mlx/mlx/backend/cuda/binary/arctan2.cu +7 -0
data/mlx/mlx/backend/cuda/binary/binary.cuh +383 -0
data/mlx/mlx/backend/cuda/binary/bitwise_binary.cu +27 -0
data/mlx/mlx/backend/cuda/binary/divide.cu +7 -0
data/mlx/mlx/backend/cuda/binary/equal.cu +15 -0
data/mlx/mlx/backend/cuda/binary/greater.cu +7 -0
data/mlx/mlx/backend/cuda/binary/greater_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/less.cu +7 -0
data/mlx/mlx/backend/cuda/binary/less_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/log_add_exp.cu +7 -0
data/mlx/mlx/backend/cuda/binary/logical_and.cu +7 -0
data/mlx/mlx/backend/cuda/binary/logical_or.cu +7 -0
data/mlx/mlx/backend/cuda/binary/maximum.cu +7 -0
data/mlx/mlx/backend/cuda/binary/minimum.cu +7 -0
data/mlx/mlx/backend/cuda/binary/multiply.cu +7 -0
data/mlx/mlx/backend/cuda/binary/not_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/power.cu +7 -0
data/mlx/mlx/backend/cuda/binary/remainder.cu +7 -0
data/mlx/mlx/backend/cuda/binary/subtract.cu +7 -0
data/mlx/mlx/backend/cuda/binary_two.cu +412 -0
data/mlx/mlx/backend/cuda/compiled.cpp +357 -0
data/mlx/mlx/backend/cuda/conv/conv.h +126 -0
data/mlx/mlx/backend/cuda/conv/gemm_conv.cu +217 -0
data/mlx/mlx/backend/cuda/conv/gemm_grouped_conv.cu +231 -0
data/mlx/mlx/backend/cuda/conv.cpp +403 -0
data/mlx/mlx/backend/cuda/copy/copy.cuh +55 -0
data/mlx/mlx/backend/cuda/copy/copy_contiguous.cu +88 -0
data/mlx/mlx/backend/cuda/copy/copy_general.cu +171 -0
data/mlx/mlx/backend/cuda/copy/copy_general_dynamic.cu +118 -0
data/mlx/mlx/backend/cuda/copy/copy_general_input.cu +229 -0
data/mlx/mlx/backend/cuda/copy.cu +132 -0
data/mlx/mlx/backend/cuda/cublas_utils.cpp +222 -0
data/mlx/mlx/backend/cuda/cublas_utils.h +95 -0
data/mlx/mlx/backend/cuda/cuda.h +21 -0
data/mlx/mlx/backend/cuda/cuda_utils.h +90 -0
data/mlx/mlx/backend/cuda/cudnn_utils.cpp +133 -0
data/mlx/mlx/backend/cuda/cudnn_utils.h +187 -0
data/mlx/mlx/backend/cuda/custom_kernel.cpp +379 -0
data/mlx/mlx/backend/cuda/cutlass_utils.cuh +46 -0
data/mlx/mlx/backend/cuda/delayload.cpp +80 -0
data/mlx/mlx/backend/cuda/device/atomic_ops.cuh +63 -0
data/mlx/mlx/backend/cuda/device/binary_ops.cuh +300 -0
data/mlx/mlx/backend/cuda/device/cast_op.cuh +118 -0
data/mlx/mlx/backend/cuda/device/complex.cuh +60 -0
data/mlx/mlx/backend/cuda/device/config.h +12 -0
data/mlx/mlx/backend/cuda/device/fp16_math.cuh +96 -0
data/mlx/mlx/backend/cuda/device/gather.cuh +53 -0
data/mlx/mlx/backend/cuda/device/gather_axis.cuh +65 -0
data/mlx/mlx/backend/cuda/device/indexing.cuh +30 -0
data/mlx/mlx/backend/cuda/device/scatter.cuh +68 -0
data/mlx/mlx/backend/cuda/device/scatter_axis.cuh +67 -0
data/mlx/mlx/backend/cuda/device/scatter_ops.cuh +44 -0
data/mlx/mlx/backend/cuda/device/ternary_ops.cuh +13 -0
data/mlx/mlx/backend/cuda/device/unary_ops.cuh +350 -0
data/mlx/mlx/backend/cuda/device/utils.cuh +464 -0
data/mlx/mlx/backend/cuda/device.cpp +522 -0
data/mlx/mlx/backend/cuda/device.h +195 -0
data/mlx/mlx/backend/cuda/device_info.cpp +232 -0
data/mlx/mlx/backend/cuda/distributed.cu +121 -0
data/mlx/mlx/backend/cuda/eval.cpp +66 -0
data/mlx/mlx/backend/cuda/event.cu +415 -0
data/mlx/mlx/backend/cuda/event.h +79 -0
data/mlx/mlx/backend/cuda/fence.cpp +42 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm.cpp +233 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm.h +114 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm_batched_12_0.cpp +77 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm_batched_12_9.cu +329 -0
data/mlx/mlx/backend/cuda/gemms/gemv.cu +327 -0
data/mlx/mlx/backend/cuda/gemms/gemv.h +34 -0
data/mlx/mlx/backend/cuda/gemms/grouped_gemm.h +25 -0
data/mlx/mlx/backend/cuda/gemms/grouped_gemm_unaligned.cu +358 -0
data/mlx/mlx/backend/cuda/indexing.cpp +434 -0
data/mlx/mlx/backend/cuda/jit_module.cpp +443 -0
data/mlx/mlx/backend/cuda/jit_module.h +120 -0
data/mlx/mlx/backend/cuda/kernel_utils.cu +52 -0
data/mlx/mlx/backend/cuda/kernel_utils.cuh +148 -0
data/mlx/mlx/backend/cuda/layer_norm.cu +417 -0
data/mlx/mlx/backend/cuda/load.cpp +60 -0
data/mlx/mlx/backend/cuda/logsumexp.cu +161 -0
data/mlx/mlx/backend/cuda/lru_cache.h +190 -0
data/mlx/mlx/backend/cuda/matmul.cpp +373 -0
data/mlx/mlx/backend/cuda/no_cuda.cpp +47 -0
data/mlx/mlx/backend/cuda/primitives.cpp +46 -0
data/mlx/mlx/backend/cuda/quantized/affine_quantize.cu +329 -0
data/mlx/mlx/backend/cuda/quantized/convert_fp8.cu +19 -0
data/mlx/mlx/backend/cuda/quantized/cublas_qqmm.cpp +206 -0
data/mlx/mlx/backend/cuda/quantized/cublas_qqmm.h +88 -0
data/mlx/mlx/backend/cuda/quantized/cuda_fp4.h +100 -0
data/mlx/mlx/backend/cuda/quantized/fp_quantize.cu +496 -0
data/mlx/mlx/backend/cuda/quantized/mxfp8_quantize.cuh +32 -0
data/mlx/mlx/backend/cuda/quantized/no_qqmm_impl.cpp +26 -0
data/mlx/mlx/backend/cuda/quantized/nvfp4_quantize.cuh +334 -0
data/mlx/mlx/backend/cuda/quantized/qmv.cu +304 -0
data/mlx/mlx/backend/cuda/quantized/qmv.h +21 -0
data/mlx/mlx/backend/cuda/quantized/qqmm.cpp +158 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_impl.cpp +50 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_impl.h +26 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_utils.cu +227 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_utils.h +30 -0
data/mlx/mlx/backend/cuda/quantized/quantized.cpp +85 -0
data/mlx/mlx/backend/cuda/quantized/quantized.h +53 -0
data/mlx/mlx/backend/cuda/quantized/quantized_utils.cuh +88 -0
data/mlx/mlx/backend/cuda/quantized/quantized_utils.h +50 -0
data/mlx/mlx/backend/cuda/random.cu +202 -0
data/mlx/mlx/backend/cuda/reduce/all_reduce.cu +159 -0
data/mlx/mlx/backend/cuda/reduce/col_reduce.cu +510 -0
data/mlx/mlx/backend/cuda/reduce/init_reduce.cu +50 -0
data/mlx/mlx/backend/cuda/reduce/reduce.cuh +71 -0
data/mlx/mlx/backend/cuda/reduce/reduce_ops.cuh +211 -0
data/mlx/mlx/backend/cuda/reduce/reduce_utils.cuh +145 -0
data/mlx/mlx/backend/cuda/reduce/row_reduce.cu +361 -0
data/mlx/mlx/backend/cuda/reduce.cu +73 -0
data/mlx/mlx/backend/cuda/rms_norm.cu +536 -0
data/mlx/mlx/backend/cuda/rope.cu +429 -0
data/mlx/mlx/backend/cuda/scaled_dot_product_attention.cpp +681 -0
data/mlx/mlx/backend/cuda/scaled_dot_product_attention.cu +796 -0
data/mlx/mlx/backend/cuda/scan.cu +468 -0
data/mlx/mlx/backend/cuda/slicing.cpp +111 -0
data/mlx/mlx/backend/cuda/softmax.cu +162 -0
data/mlx/mlx/backend/cuda/sort.cu +1076 -0
data/mlx/mlx/backend/cuda/steel/defines.cuh +9 -0
data/mlx/mlx/backend/cuda/steel/gemm.cuh +101 -0
data/mlx/mlx/backend/cuda/steel/mma.cuh +117 -0
data/mlx/mlx/backend/cuda/steel/tiles.cuh +450 -0
data/mlx/mlx/backend/cuda/steel/utils.cuh +89 -0
data/mlx/mlx/backend/cuda/ternary.cu +271 -0
data/mlx/mlx/backend/cuda/unary/CMakeLists.txt +34 -0
data/mlx/mlx/backend/cuda/unary/abs.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arccos.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arccosh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arcsin.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arcsinh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arctan.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arctanh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/bitwise_invert.cu +7 -0
data/mlx/mlx/backend/cuda/unary/ceil.cu +7 -0
data/mlx/mlx/backend/cuda/unary/conjugate.cu +7 -0
data/mlx/mlx/backend/cuda/unary/cos.cu +7 -0
data/mlx/mlx/backend/cuda/unary/cosh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/erf.cu +7 -0
data/mlx/mlx/backend/cuda/unary/erf_inv.cu +7 -0
data/mlx/mlx/backend/cuda/unary/exp.cu +7 -0
data/mlx/mlx/backend/cuda/unary/expm1.cu +7 -0
data/mlx/mlx/backend/cuda/unary/floor.cu +7 -0
data/mlx/mlx/backend/cuda/unary/imag.cu +7 -0
data/mlx/mlx/backend/cuda/unary/log.cu +21 -0
data/mlx/mlx/backend/cuda/unary/log1p.cu +7 -0
data/mlx/mlx/backend/cuda/unary/logical_not.cu +7 -0
data/mlx/mlx/backend/cuda/unary/negative.cu +7 -0
data/mlx/mlx/backend/cuda/unary/real.cu +7 -0
data/mlx/mlx/backend/cuda/unary/round.cu +18 -0
data/mlx/mlx/backend/cuda/unary/sigmoid.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sign.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sin.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sinh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sqrt.cu +15 -0
data/mlx/mlx/backend/cuda/unary/square.cu +7 -0
data/mlx/mlx/backend/cuda/unary/tan.cu +7 -0
data/mlx/mlx/backend/cuda/unary/tanh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/unary.cuh +224 -0
data/mlx/mlx/backend/cuda/utils.cpp +116 -0
data/mlx/mlx/backend/cuda/utils.h +49 -0
data/mlx/mlx/backend/cuda/vector_types.cuh +48 -0
data/mlx/mlx/backend/cuda/worker.cpp +79 -0
data/mlx/mlx/backend/cuda/worker.h +55 -0
data/mlx/mlx/backend/gpu/CMakeLists.txt +5 -0
data/mlx/mlx/backend/gpu/copy.cpp +89 -0
data/mlx/mlx/backend/gpu/copy.h +57 -0
data/mlx/mlx/backend/gpu/device_info.h +36 -0
data/mlx/mlx/backend/gpu/eval.h +18 -0
data/mlx/mlx/backend/gpu/primitives.cpp +307 -0
data/mlx/mlx/backend/gpu/slicing.cpp +44 -0
data/mlx/mlx/backend/gpu/slicing.h +36 -0
data/mlx/mlx/backend/metal/CMakeLists.txt +144 -0
data/mlx/mlx/backend/metal/allocator.cpp +279 -0
data/mlx/mlx/backend/metal/allocator.h +79 -0
data/mlx/mlx/backend/metal/binary.cpp +257 -0
data/mlx/mlx/backend/metal/binary.h +33 -0
data/mlx/mlx/backend/metal/compiled.cpp +471 -0
data/mlx/mlx/backend/metal/conv.cpp +1118 -0
data/mlx/mlx/backend/metal/copy.cpp +235 -0
data/mlx/mlx/backend/metal/custom_kernel.cpp +430 -0
data/mlx/mlx/backend/metal/device.cpp +816 -0
data/mlx/mlx/backend/metal/device.h +289 -0
data/mlx/mlx/backend/metal/device_info.cpp +58 -0
data/mlx/mlx/backend/metal/distributed.cpp +38 -0
data/mlx/mlx/backend/metal/eval.cpp +97 -0
data/mlx/mlx/backend/metal/event.cpp +62 -0
data/mlx/mlx/backend/metal/fence.cpp +162 -0
data/mlx/mlx/backend/metal/fft.cpp +807 -0
data/mlx/mlx/backend/metal/hadamard.cpp +198 -0
data/mlx/mlx/backend/metal/indexing.cpp +727 -0
data/mlx/mlx/backend/metal/jit/includes.h +58 -0
data/mlx/mlx/backend/metal/jit/indexing.h +76 -0
data/mlx/mlx/backend/metal/jit_kernels.cpp +1118 -0
data/mlx/mlx/backend/metal/kernels/CMakeLists.txt +193 -0
data/mlx/mlx/backend/metal/kernels/arange.h +9 -0
data/mlx/mlx/backend/metal/kernels/arange.metal +20 -0
data/mlx/mlx/backend/metal/kernels/arg_reduce.metal +182 -0
data/mlx/mlx/backend/metal/kernels/atomic.h +345 -0
data/mlx/mlx/backend/metal/kernels/bf16.h +16 -0
data/mlx/mlx/backend/metal/kernels/bf16_math.h +380 -0
data/mlx/mlx/backend/metal/kernels/binary.h +199 -0
data/mlx/mlx/backend/metal/kernels/binary.metal +109 -0
data/mlx/mlx/backend/metal/kernels/binary_ops.h +330 -0
data/mlx/mlx/backend/metal/kernels/binary_two.h +244 -0
data/mlx/mlx/backend/metal/kernels/binary_two.metal +54 -0
data/mlx/mlx/backend/metal/kernels/cexpf.h +134 -0
data/mlx/mlx/backend/metal/kernels/complex.h +173 -0
data/mlx/mlx/backend/metal/kernels/conv.metal +701 -0
data/mlx/mlx/backend/metal/kernels/copy.h +276 -0
data/mlx/mlx/backend/metal/kernels/copy.metal +75 -0
data/mlx/mlx/backend/metal/kernels/defines.h +24 -0
data/mlx/mlx/backend/metal/kernels/erf.h +69 -0
data/mlx/mlx/backend/metal/kernels/expm1f.h +90 -0
data/mlx/mlx/backend/metal/kernels/fence.metal +52 -0
data/mlx/mlx/backend/metal/kernels/fft/radix.h +328 -0
data/mlx/mlx/backend/metal/kernels/fft/readwrite.h +624 -0
data/mlx/mlx/backend/metal/kernels/fft.h +486 -0
data/mlx/mlx/backend/metal/kernels/fft.metal +67 -0
data/mlx/mlx/backend/metal/kernels/fp4.h +48 -0
data/mlx/mlx/backend/metal/kernels/fp8.h +80 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized.h +1850 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized.metal +153 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized_nax.h +1044 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized_nax.metal +79 -0
data/mlx/mlx/backend/metal/kernels/gemv.metal +868 -0
data/mlx/mlx/backend/metal/kernels/gemv_masked.h +827 -0
data/mlx/mlx/backend/metal/kernels/gemv_masked.metal +76 -0
data/mlx/mlx/backend/metal/kernels/hadamard.h +182 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather.h +51 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather_axis.h +44 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather_front.h +24 -0
data/mlx/mlx/backend/metal/kernels/indexing/indexing.h +23 -0
data/mlx/mlx/backend/metal/kernels/indexing/masked_scatter.h +41 -0
data/mlx/mlx/backend/metal/kernels/indexing/scatter.h +59 -0
data/mlx/mlx/backend/metal/kernels/indexing/scatter_axis.h +52 -0
data/mlx/mlx/backend/metal/kernels/layer_norm.metal +433 -0
data/mlx/mlx/backend/metal/kernels/logging.h +26 -0
data/mlx/mlx/backend/metal/kernels/logsumexp.h +140 -0
data/mlx/mlx/backend/metal/kernels/logsumexp.metal +18 -0
data/mlx/mlx/backend/metal/kernels/quantized.h +2508 -0
data/mlx/mlx/backend/metal/kernels/quantized.metal +144 -0
data/mlx/mlx/backend/metal/kernels/quantized_nax.h +1705 -0
data/mlx/mlx/backend/metal/kernels/quantized_nax.metal +106 -0
data/mlx/mlx/backend/metal/kernels/quantized_utils.h +90 -0
data/mlx/mlx/backend/metal/kernels/random.metal +103 -0
data/mlx/mlx/backend/metal/kernels/reduce.h +5 -0
data/mlx/mlx/backend/metal/kernels/reduce.metal +169 -0
data/mlx/mlx/backend/metal/kernels/reduce_utils.h +6 -0
data/mlx/mlx/backend/metal/kernels/reduction/ops.h +275 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_all.h +66 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_col.h +398 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_init.h +8 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_row.h +369 -0
data/mlx/mlx/backend/metal/kernels/rms_norm.metal +391 -0
data/mlx/mlx/backend/metal/kernels/rope.metal +229 -0
data/mlx/mlx/backend/metal/kernels/scaled_dot_product_attention.metal +44 -0
data/mlx/mlx/backend/metal/kernels/scan.h +514 -0
data/mlx/mlx/backend/metal/kernels/scan.metal +109 -0
data/mlx/mlx/backend/metal/kernels/sdpa_vector.h +394 -0
data/mlx/mlx/backend/metal/kernels/softmax.h +190 -0
data/mlx/mlx/backend/metal/kernels/softmax.metal +24 -0
data/mlx/mlx/backend/metal/kernels/sort.h +719 -0
data/mlx/mlx/backend/metal/kernels/sort.metal +80 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/attn.h +296 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention.h +471 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention.metal +27 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention_nax.h +481 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention_nax.metal +28 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/loader.h +264 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/mma.h +750 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/nax.h +1076 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/params.h +44 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/transforms.h +71 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/conv.h +13 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv.h +176 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv.metal +56 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_general.h +225 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_general.metal +47 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loader.h +6 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_l.h +451 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_n.h +319 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_general.h +381 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/params.h +62 -0
data/mlx/mlx/backend/metal/kernels/steel/defines.h +7 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/gemm.h +295 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/gemm_nax.h +157 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused.h +346 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused.metal +34 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused_nax.h +219 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused_nax.metal +30 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather.h +459 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather.metal +59 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather_nax.h +143 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather_nax.metal +37 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_masked.h +719 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_masked.metal +76 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_segmented.h +266 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_segmented.metal +43 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk.h +227 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk.metal +76 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk_nax.h +152 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk_nax.metal +30 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/loader.h +137 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/mma.h +1146 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/nax.h +1084 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/params.h +65 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/transforms.h +72 -0
data/mlx/mlx/backend/metal/kernels/steel/utils/integral_constant.h +134 -0
data/mlx/mlx/backend/metal/kernels/steel/utils/type_traits.h +55 -0
data/mlx/mlx/backend/metal/kernels/steel/utils.h +42 -0
data/mlx/mlx/backend/metal/kernels/ternary.h +145 -0
data/mlx/mlx/backend/metal/kernels/ternary.metal +48 -0
data/mlx/mlx/backend/metal/kernels/ternary_ops.h +10 -0
data/mlx/mlx/backend/metal/kernels/unary.h +63 -0
data/mlx/mlx/backend/metal/kernels/unary.metal +115 -0
data/mlx/mlx/backend/metal/kernels/unary_ops.h +454 -0
data/mlx/mlx/backend/metal/kernels/utils.h +445 -0
data/mlx/mlx/backend/metal/kernels.h +375 -0
data/mlx/mlx/backend/metal/logsumexp.cpp +95 -0
data/mlx/mlx/backend/metal/make_compiled_preamble.sh +120 -0
data/mlx/mlx/backend/metal/matmul.cpp +2572 -0
data/mlx/mlx/backend/metal/matmul.h +144 -0
data/mlx/mlx/backend/metal/metal.cpp +50 -0
data/mlx/mlx/backend/metal/metal.h +25 -0
data/mlx/mlx/backend/metal/no_metal.cpp +42 -0
data/mlx/mlx/backend/metal/nojit_kernels.cpp +414 -0
data/mlx/mlx/backend/metal/normalization.cpp +433 -0
data/mlx/mlx/backend/metal/primitives.cpp +242 -0
data/mlx/mlx/backend/metal/quantized.cpp +1651 -0
data/mlx/mlx/backend/metal/reduce.cpp +1038 -0
data/mlx/mlx/backend/metal/reduce.h +41 -0
data/mlx/mlx/backend/metal/resident.cpp +100 -0
data/mlx/mlx/backend/metal/resident.h +32 -0
data/mlx/mlx/backend/metal/rope.cpp +165 -0
data/mlx/mlx/backend/metal/scaled_dot_product_attention.cpp +798 -0
data/mlx/mlx/backend/metal/scan.cpp +145 -0
data/mlx/mlx/backend/metal/scan.h +17 -0
data/mlx/mlx/backend/metal/slicing.cpp +99 -0
data/mlx/mlx/backend/metal/softmax.cpp +87 -0
data/mlx/mlx/backend/metal/sort.cpp +368 -0
data/mlx/mlx/backend/metal/ternary.cpp +160 -0
data/mlx/mlx/backend/metal/ternary.h +21 -0
data/mlx/mlx/backend/metal/unary.cpp +161 -0
data/mlx/mlx/backend/metal/unary.h +21 -0
data/mlx/mlx/backend/metal/utils.cpp +77 -0
data/mlx/mlx/backend/metal/utils.h +99 -0
data/mlx/mlx/backend/no_cpu/CMakeLists.txt +7 -0
data/mlx/mlx/backend/no_cpu/compiled.cpp +24 -0
data/mlx/mlx/backend/no_cpu/device_info.cpp +22 -0
data/mlx/mlx/backend/no_cpu/primitives.cpp +146 -0
data/mlx/mlx/backend/no_gpu/CMakeLists.txt +8 -0
data/mlx/mlx/backend/no_gpu/allocator.cpp +134 -0
data/mlx/mlx/backend/no_gpu/apple_memory.h +16 -0
data/mlx/mlx/backend/no_gpu/device_info.cpp +22 -0
data/mlx/mlx/backend/no_gpu/eval.cpp +24 -0
data/mlx/mlx/backend/no_gpu/event.cpp +53 -0
data/mlx/mlx/backend/no_gpu/fence.cpp +54 -0
data/mlx/mlx/backend/no_gpu/linux_memory.h +22 -0
data/mlx/mlx/backend/no_gpu/primitives.cpp +185 -0
data/mlx/mlx/compile.cpp +1243 -0
data/mlx/mlx/compile.h +45 -0
data/mlx/mlx/compile_impl.h +70 -0
data/mlx/mlx/device.cpp +72 -0
data/mlx/mlx/device.h +56 -0
data/mlx/mlx/distributed/CMakeLists.txt +14 -0
data/mlx/mlx/distributed/distributed.cpp +197 -0
data/mlx/mlx/distributed/distributed.h +61 -0
data/mlx/mlx/distributed/distributed_impl.h +59 -0
data/mlx/mlx/distributed/jaccl/CMakeLists.txt +12 -0
data/mlx/mlx/distributed/jaccl/jaccl.cpp +178 -0
data/mlx/mlx/distributed/jaccl/jaccl.h +12 -0
data/mlx/mlx/distributed/jaccl/mesh.cpp +451 -0
data/mlx/mlx/distributed/jaccl/mesh.h +122 -0
data/mlx/mlx/distributed/jaccl/no_jaccl.cpp +20 -0
data/mlx/mlx/distributed/jaccl/ring.cpp +692 -0
data/mlx/mlx/distributed/jaccl/ring.h +178 -0
data/mlx/mlx/distributed/jaccl/utils.cpp +329 -0
data/mlx/mlx/distributed/jaccl/utils.h +342 -0
data/mlx/mlx/distributed/mpi/CMakeLists.txt +5 -0
data/mlx/mlx/distributed/mpi/mpi.cpp +501 -0
data/mlx/mlx/distributed/mpi/mpi.h +12 -0
data/mlx/mlx/distributed/mpi/mpi_declarations.h +28 -0
data/mlx/mlx/distributed/mpi/no_mpi.cpp +20 -0
data/mlx/mlx/distributed/nccl/CMakeLists.txt +26 -0
data/mlx/mlx/distributed/nccl/nccl.cpp +443 -0
data/mlx/mlx/distributed/nccl/nccl.h +12 -0
data/mlx/mlx/distributed/nccl/nccl_stub/CMakeLists.txt +1 -0
data/mlx/mlx/distributed/nccl/nccl_stub/nccl_stubs.cpp +54 -0
data/mlx/mlx/distributed/nccl/no_nccl.cpp +20 -0
data/mlx/mlx/distributed/ops.cpp +186 -0
data/mlx/mlx/distributed/ops.h +57 -0
data/mlx/mlx/distributed/primitives.cpp +95 -0
data/mlx/mlx/distributed/primitives.h +156 -0
data/mlx/mlx/distributed/reduction_ops.h +38 -0
data/mlx/mlx/distributed/ring/CMakeLists.txt +5 -0
data/mlx/mlx/distributed/ring/no_ring.cpp +20 -0
data/mlx/mlx/distributed/ring/ring.cpp +870 -0
data/mlx/mlx/distributed/ring/ring.h +12 -0
data/mlx/mlx/distributed/utils.cpp +206 -0
data/mlx/mlx/distributed/utils.h +67 -0
data/mlx/mlx/dtype.cpp +197 -0
data/mlx/mlx/dtype.h +116 -0
data/mlx/mlx/dtype_utils.cpp +42 -0
data/mlx/mlx/dtype_utils.h +119 -0
data/mlx/mlx/einsum.cpp +941 -0
data/mlx/mlx/einsum.h +23 -0
data/mlx/mlx/event.h +58 -0
data/mlx/mlx/export.cpp +1130 -0
data/mlx/mlx/export.h +137 -0
data/mlx/mlx/export_impl.h +99 -0
data/mlx/mlx/fast.cpp +941 -0
data/mlx/mlx/fast.h +103 -0
data/mlx/mlx/fast_primitives.h +427 -0
data/mlx/mlx/fence.h +39 -0
data/mlx/mlx/fft.cpp +262 -0
data/mlx/mlx/fft.h +159 -0
data/mlx/mlx/graph_utils.cpp +175 -0
data/mlx/mlx/graph_utils.h +67 -0
data/mlx/mlx/io/CMakeLists.txt +25 -0
data/mlx/mlx/io/gguf.cpp +470 -0
data/mlx/mlx/io/gguf.h +20 -0
data/mlx/mlx/io/gguf_quants.cpp +164 -0
data/mlx/mlx/io/load.cpp +397 -0
data/mlx/mlx/io/load.h +175 -0
data/mlx/mlx/io/no_gguf.cpp +20 -0
data/mlx/mlx/io/no_safetensors.cpp +37 -0
data/mlx/mlx/io/safetensors.cpp +234 -0
data/mlx/mlx/io.h +61 -0
data/mlx/mlx/linalg.cpp +708 -0
data/mlx/mlx/linalg.h +115 -0
data/mlx/mlx/memory.h +80 -0
data/mlx/mlx/mlx.h +25 -0
data/mlx/mlx/ops.cpp +6094 -0
data/mlx/mlx/ops.h +1610 -0
data/mlx/mlx/primitives.cpp +5850 -0
data/mlx/mlx/primitives.h +2525 -0
data/mlx/mlx/random.cpp +492 -0
data/mlx/mlx/random.h +283 -0
data/mlx/mlx/scheduler.cpp +73 -0
data/mlx/mlx/scheduler.h +189 -0
data/mlx/mlx/small_vector.h +540 -0
data/mlx/mlx/stream.h +42 -0
data/mlx/mlx/threadpool.h +133 -0
data/mlx/mlx/transforms.cpp +1065 -0
data/mlx/mlx/transforms.h +231 -0
data/mlx/mlx/transforms_impl.h +88 -0
data/mlx/mlx/types/bf16.h +187 -0
data/mlx/mlx/types/complex.h +113 -0
data/mlx/mlx/types/fp16.h +234 -0
data/mlx/mlx/types/half_types.h +58 -0
data/mlx/mlx/types/limits.h +70 -0
data/mlx/mlx/utils.cpp +302 -0
data/mlx/mlx/utils.h +174 -0
data/mlx/mlx/version.cpp +11 -0
data/mlx/mlx/version.h +22 -0
data/mlx/mlx.pc.in +52 -0
metadata +643 -0

data/mlx/mlx/backend/cuda/copy.cu ADDED Viewed

@@ -0,0 +1,132 @@
+// Copyright © 2025 Apple Inc.
+#include "mlx/backend/common/utils.h"
+#include "mlx/backend/cuda/copy/copy.cuh"
+namespace mlx::core {
+void copy_gpu(const array& in, array& out, CopyType ctype, const Stream& s) {
+  auto& encoder = cu::get_command_encoder(s);
+  bool donated = set_copy_output_data(
+      in, out, ctype, [&](auto n) { return cu::malloc_async(n, encoder); });
+  if (donated && in.dtype() == out.dtype()) {
+    // If the output has the same type as the input then there is nothing to
+    // copy, just use the buffer.
+    return;
+  }
+  if (ctype == CopyType::GeneralGeneral) {
+    ctype = CopyType::General;
+  }
+  copy_gpu_inplace(in, out, ctype, s);
+}
+void copy_gpu_inplace(
+    const array& in,
+    array& out,
+    const Shape& shape,
+    const Strides& strides_in,
+    const Strides& strides_out,
+    int64_t offset_in,
+    int64_t offset_out,
+    CopyType ctype,
+    const Stream& s,
+    std::optional<array> dynamic_offset_in,
+    std::optional<array> dynamic_offset_out) {
+  if (out.size() == 0) {
+    return;
+  }
+  auto& encoder = cu::get_command_encoder(s);
+  encoder.set_input_array(in);
+  encoder.set_output_array(out);
+  if (ctype == CopyType::Scalar || ctype == CopyType::Vector) {
+    copy_contiguous(encoder, ctype, in, out, offset_in, offset_out);
+    return;
+  }
+  if (ctype == CopyType::General || ctype == CopyType::GeneralGeneral) {
+    auto [shape_collapsed, strides_vec] = collapse_contiguous_dims(
+        shape, std::vector{strides_in, strides_out}, INT32_MAX);
+    if (ctype == CopyType::General) {
+      copy_general_input(
+          encoder,
+          ctype,
+          in,
+          out,
+          offset_in,
+          offset_out,
+          shape_collapsed,
+          strides_vec[0]);
+    } else {
+      if (dynamic_offset_in || dynamic_offset_out) {
+        if (!dynamic_offset_in) {
+          dynamic_offset_in = array(0, int64);
+          encoder.add_temporary(*dynamic_offset_in);
+        }
+        if (!dynamic_offset_out) {
+          dynamic_offset_out = array(0, int64);
+          encoder.add_temporary(*dynamic_offset_out);
+        }
+        encoder.set_input_array(*dynamic_offset_in);
+        encoder.set_input_array(*dynamic_offset_out);
+        copy_general_dynamic(
+            encoder,
+            ctype,
+            in,
+            out,
+            offset_in,
+            offset_out,
+            shape_collapsed,
+            strides_vec[0],
+            strides_vec[1],
+            *dynamic_offset_in,
+            *dynamic_offset_out);
+      } else {
+        copy_general(
+            encoder,
+            ctype,
+            in,
+            out,
+            offset_in,
+            offset_out,
+            shape_collapsed,
+            strides_vec[0],
+            strides_vec[1]);
+      }
+    }
+    return;
+  }
+}
+void fill_gpu(const array& in, array& out, const Stream& s) {
+  if (out.size() == 0) {
+    return;
+  }
+  auto& encoder = cu::get_command_encoder(s);
+  out.set_data(cu::malloc_async(out.nbytes(), encoder));
+  encoder.set_input_array(in);
+  encoder.set_output_array(out);
+  copy_contiguous(encoder, CopyType::Scalar, in, out, 0, 0);
+}
+void reshape_gpu(const array& in, array& out, Stream s) {
+  auto [copy_necessary, out_strides] = prepare_reshape(in, out);
+  if (copy_necessary) {
+    auto& encoder = cu::get_command_encoder(s);
+    out.set_data(cu::malloc_async(out.nbytes(), encoder));
+    copy_gpu_inplace(
+        in,
+        out,
+        in.shape(),
+        in.strides(),
+        make_contiguous_strides(in.shape()),
+        0,
+        0,
+        CopyType::General,
+        s);
+  } else {
+    shared_buffer_reshape(in, out_strides, out);
+  }
+}
+} // namespace mlx::core

data/mlx/mlx/backend/cuda/cublas_utils.cpp ADDED Viewed

@@ -0,0 +1,222 @@
+// Copyright © 2025 Apple Inc.
+#include "mlx/backend/cuda/cublas_utils.h"
+#include "mlx/backend/cuda/cuda.h"
+#include "mlx/utils.h"
+namespace mlx::core {
+namespace cublas_utils {
+namespace {
+struct CublasPreference {
+  CublasPreference(cu::Device& device) {
+    // The recommended cublas workspace size is 4 MiB for pre-Hopper and 32 MiB
+    // for Hopper+:
+    // https://docs.nvidia.com/cuda/cublas/#cublassetworkspace
+    uint64_t MiB = 1024 * 1024;
+    uint64_t workspace_size =
+        device.compute_capability_major() >= 9 ? 32 * MiB : 4 * MiB;
+    CHECK_CUBLAS_ERROR(cublasLtMatmulPreferenceCreate(&pref_));
+    CHECK_CUBLAS_ERROR(cublasLtMatmulPreferenceSetAttribute(
+        pref_,
+        CUBLASLT_MATMUL_PREF_MAX_WORKSPACE_BYTES,
+        &workspace_size,
+        sizeof(uint64_t)));
+  }
+  ~CublasPreference() {
+    CHECK_CUBLAS_ERROR(cublasLtMatmulPreferenceDestroy(pref_));
+  }
+  cublasLtMatmulPreference_t pref_{nullptr};
+};
+} // namespace
+cublasLtMatmulPreference_t get_preference(cu::Device& device) {
+  static CublasPreference pref(device);
+  return pref.pref_;
+}
+cublasLtMatrixLayout_t create_matrix_layout(
+    cudaDataType_t type,
+    uint64_t rows,
+    uint64_t cols,
+    bool transposed,
+    int64_t ld,
+    int32_t batch_count,
+    int64_t batch_stride) {
+  cublasLtMatrixLayout_t desc;
+  if (transposed) {
+    std::swap(rows, cols);
+  }
+  CHECK_CUBLAS_ERROR(cublasLtMatrixLayoutCreate(&desc, type, rows, cols, ld));
+  if (batch_count > 1) {
+    CHECK_CUBLAS_ERROR(cublasLtMatrixLayoutSetAttribute(
+        desc,
+        CUBLASLT_MATRIX_LAYOUT_BATCH_COUNT,
+        &batch_count,
+        sizeof(int32_t)));
+    CHECK_CUBLAS_ERROR(cublasLtMatrixLayoutSetAttribute(
+        desc,
+        CUBLASLT_MATRIX_LAYOUT_STRIDED_BATCH_OFFSET,
+        &batch_stride,
+        sizeof(int64_t)));
+  }
+  return desc;
+}
+} // namespace cublas_utils
+CublasMatmulBase::~CublasMatmulBase() {
+  CHECK_CUBLAS_ERROR(cublasLtMatrixLayoutDestroy(a_desc_));
+  CHECK_CUBLAS_ERROR(cublasLtMatrixLayoutDestroy(b_desc_));
+  CHECK_CUBLAS_ERROR(cublasLtMatrixLayoutDestroy(c_desc_));
+  CHECK_CUBLAS_ERROR(cublasLtMatrixLayoutDestroy(out_desc_));
+  CHECK_CUBLAS_ERROR(cublasLtMatmulDescDestroy(matmul_desc_));
+}
+void CublasMatmulBase::init_base(
+    cu::Device& device,
+    cudaDataType_t scale_type,
+    cublasComputeType_t compute_type,
+    cudaDataType_t data_type,
+    cudaDataType_t output_type,
+    bool a_transposed,
+    uint64_t a_rows,
+    uint64_t a_cols,
+    int64_t lda,
+    bool b_transposed,
+    uint64_t b_rows,
+    uint64_t b_cols,
+    int64_t ldb,
+    int32_t batch_count,
+    int64_t a_batch_stride,
+    int64_t b_batch_stride) {
+  M_ = a_rows;
+  N_ = b_cols;
+  scale_type_ = scale_type;
+  handle_ = device.get_cublaslt_handle();
+  pref_ = cublas_utils::get_preference(device);
+  heuristic_.state = CUBLAS_STATUS_NOT_INITIALIZED;
+  CHECK_CUBLAS_ERROR(
+      cublasLtMatmulDescCreate(&matmul_desc_, compute_type, scale_type));
+  int32_t pointer_mode = CUBLASLT_POINTER_MODE_HOST;
+  CHECK_CUBLAS_ERROR(cublasLtMatmulDescSetAttribute(
+      matmul_desc_,
+      CUBLASLT_MATMUL_DESC_POINTER_MODE,
+      &pointer_mode,
+      sizeof(int32_t)));
+  // In cublasLt matrices use column-major layout, while it is possible to use
+  // the CUBLASLT_ORDER_ROW option to switch to row-major layout, the bias
+  // epilogue does not work with the option. So instead we swap A and B to make
+  // cublasLt return the row-major result, which works because:
+  // - the data of a matrix in row-major layout is identical to its transpose in
+  //   column-major layout
+  // - C^T = (A @ B)^T = B^T @ A^T
+  cublasOperation_t a_op = b_transposed ? CUBLAS_OP_T : CUBLAS_OP_N;
+  CHECK_CUBLAS_ERROR(cublasLtMatmulDescSetAttribute(
+      matmul_desc_,
+      CUBLASLT_MATMUL_DESC_TRANSA,
+      &a_op,
+      sizeof(cublasOperation_t)));
+  cublasOperation_t b_op = a_transposed ? CUBLAS_OP_T : CUBLAS_OP_N;
+  CHECK_CUBLAS_ERROR(cublasLtMatmulDescSetAttribute(
+      matmul_desc_,
+      CUBLASLT_MATMUL_DESC_TRANSB,
+      &b_op,
+      sizeof(cublasOperation_t)));
+  a_desc_ = cublas_utils::create_matrix_layout(
+      data_type,
+      b_cols,
+      b_rows,
+      b_transposed,
+      ldb,
+      batch_count,
+      b_batch_stride);
+  b_desc_ = cublas_utils::create_matrix_layout(
+      data_type,
+      a_cols,
+      a_rows,
+      a_transposed,
+      lda,
+      batch_count,
+      a_batch_stride);
+  out_desc_ = cublas_utils::create_matrix_layout(
+      output_type, b_cols, a_rows, false, b_cols, batch_count, b_cols * a_rows);
+}
+void CublasMatmulBase::execute_matmul(
+    cu::CommandEncoder& encoder,
+    void* out,
+    const void* a,
+    const void* b,
+    const void* c,
+    const void* alpha_ptr,
+    const void* beta_ptr) {
+  if (heuristic_.state != CUBLAS_STATUS_SUCCESS) {
+    int ret = 0;
+    CHECK_CUBLAS_ERROR(cublasLtMatmulAlgoGetHeuristic(
+        handle_,
+        matmul_desc_,
+        a_desc_,
+        b_desc_,
+        c ? c_desc_ : out_desc_,
+        out_desc_,
+        pref_,
+        1,
+        &heuristic_,
+        &ret));
+    if (ret == 0) {
+      throw std::runtime_error("Can not find algorithm for matmul.");
+    }
+  }
+  void* workspace_ptr = allocate_workspace(encoder, heuristic_.workspaceSize);
+  // Execute matmul
+  auto capture = encoder.capture_context();
+  CHECK_CUBLAS_ERROR(cublasLtMatmul(
+      handle_,
+      matmul_desc_,
+      alpha_ptr,
+      b, // a and b are swapped for row-major layout
+      a_desc_,
+      a,
+      b_desc_,
+      beta_ptr,
+      c ? c : out,
+      c ? c_desc_ : out_desc_,
+      out,
+      out_desc_,
+      &heuristic_.algo,
+      workspace_ptr,
+      heuristic_.workspaceSize,
+      encoder.stream()));
+}
+void CublasMatmulBase::set_bias(
+    cu::CommandEncoder& encoder,
+    const array& bias) {
+  encoder.set_input_array(bias);
+  cublasLtEpilogue_t epilogue = CUBLASLT_EPILOGUE_BIAS;
+  CHECK_CUBLAS_ERROR(cublasLtMatmulDescSetAttribute(
+      matmul_desc_,
+      CUBLASLT_MATMUL_DESC_EPILOGUE,
+      &epilogue,
+      sizeof(epilogue)));
+  auto* bias_ptr = gpu_ptr<void>(bias);
+  CHECK_CUBLAS_ERROR(cublasLtMatmulDescSetAttribute(
+      matmul_desc_,
+      CUBLASLT_MATMUL_DESC_BIAS_POINTER,
+      &bias_ptr,
+      sizeof(bias_ptr)));
+}
+} // namespace mlx::core

data/mlx/mlx/backend/cuda/cublas_utils.h ADDED Viewed

@@ -0,0 +1,95 @@
+// Copyright © 2025 Apple Inc.
+#pragma once
+#include <cublasLt.h>
+#include "mlx/array.h"
+#include "mlx/backend/cuda/device.h"
+#include "mlx/dtype_utils.h"
+namespace mlx::core {
+namespace cublas_utils {
+// Get the shared cublas preference for a device
+cublasLtMatmulPreference_t get_preference(cu::Device& device);
+cublasLtMatrixLayout_t create_matrix_layout(
+    cudaDataType_t type,
+    uint64_t rows,
+    uint64_t cols,
+    bool transposed,
+    int64_t ld,
+    int32_t batch_count,
+    int64_t batch_stride);
+inline cudaDataType_t dtype_to_cublas_type(Dtype dtype, std::string_view tag) {
+  switch (dtype) {
+    case float16:
+      return CUDA_R_16F;
+    case bfloat16:
+      return CUDA_R_16BF;
+    case float32:
+      return CUDA_R_32F;
+    case float64:
+      return CUDA_R_64F;
+    case complex64:
+      return CUDA_C_32F;
+    default:
+      throw std::runtime_error(
+          fmt::format(
+              "Unsupported dtype in {}: {}.", tag, dtype_to_string(dtype)));
+  }
+}
+} // namespace cublas_utils
+class CublasMatmulBase {
+ public:
+  virtual ~CublasMatmulBase();
+  void set_bias(cu::CommandEncoder& encoder, const array& bias);
+ protected:
+  CublasMatmulBase() = default;
+  // Common member variables shared by all matmul types
+  uint64_t M_;
+  uint64_t N_;
+  cudaDataType_t scale_type_;
+  cublasLtMatmulPreference_t pref_{nullptr};
+  cublasLtHandle_t handle_{nullptr};
+  cublasLtMatmulDesc_t matmul_desc_{nullptr};
+  cublasLtMatrixLayout_t a_desc_{nullptr};
+  cublasLtMatrixLayout_t b_desc_{nullptr};
+  cublasLtMatrixLayout_t c_desc_{nullptr};
+  cublasLtMatrixLayout_t out_desc_{nullptr};
+  cublasLtMatmulHeuristicResult_t heuristic_;
+  void init_base(
+      cu::Device& device,
+      cudaDataType_t scale_type,
+      cublasComputeType_t compute_type,
+      cudaDataType_t data_type,
+      cudaDataType_t output_type,
+      bool a_transposed,
+      uint64_t a_rows,
+      uint64_t a_cols,
+      int64_t lda,
+      bool b_transposed,
+      uint64_t b_rows,
+      uint64_t b_cols,
+      int64_t ldb,
+      int32_t batch_count,
+      int64_t a_batch_stride,
+      int64_t b_batch_stride);
+  void execute_matmul(
+      cu::CommandEncoder& encoder,
+      void* out,
+      const void* a,
+      const void* b,
+      const void* c,
+      const void* alpha_ptr,
+      const void* beta_ptr);
+};
+} // namespace mlx::core

data/mlx/mlx/backend/cuda/cuda.h ADDED Viewed

@@ -0,0 +1,21 @@
+// Copyright © 2025 Apple Inc.
+#pragma once
+#include <string>
+#include <unordered_map>
+#include <variant>
+#include "mlx/api.h"
+namespace mlx::core::cu {
+/* Check if the CUDA backend is available. */
+MLX_API bool is_available();
+/* Get information about a CUDA device. */
+MLX_API const
+    std::unordered_map<std::string, std::variant<std::string, size_t>>&
+    device_info(int device_index = 0);
+} // namespace mlx::core::cu

data/mlx/mlx/backend/cuda/cuda_utils.h ADDED Viewed

@@ -0,0 +1,90 @@
+// Copyright © 2025 Apple Inc.
+#pragma once
+#include <cublasLt.h>
+#include <cuda.h>
+#include <cuda_runtime.h>
+#include <cudnn.h>
+namespace mlx::core {
+// Throw exception if the cuda API does not succeed.
+void check_cublas_error(const char* name, cublasStatus_t err);
+void check_cuda_error(const char* name, cudaError_t err);
+void check_cuda_error(const char* name, CUresult err);
+void check_cudnn_error(const char* name, cudnnStatus_t err);
+// The macro version that prints the command that failed.
+#define CHECK_CUBLAS_ERROR(cmd) check_cublas_error(#cmd, (cmd))
+#define CHECK_CUDA_ERROR(cmd) check_cuda_error(#cmd, (cmd))
+#define CHECK_CUDNN_ERROR(cmd) check_cudnn_error(#cmd, (cmd))
+// Base class for RAII managed CUDA resources.
+template <typename Handle, cudaError_t (*Destroy)(Handle)>
+class CudaHandle {
+ public:
+  CudaHandle(Handle handle = nullptr) : handle_(handle) {}
+  CudaHandle(CudaHandle&& other) : handle_(other.handle_) {
+    assert(this != &other);
+    other.handle_ = nullptr;
+  }
+  ~CudaHandle() {
+    // Skip if there was an error to avoid throwing in the destructors
+    if (cudaPeekAtLastError() != cudaSuccess) {
+      return;
+    }
+    reset();
+  }
+  CudaHandle(const CudaHandle&) = delete;
+  CudaHandle& operator=(const CudaHandle&) = delete;
+  CudaHandle& operator=(CudaHandle&& other) {
+    assert(this != &other);
+    reset();
+    std::swap(handle_, other.handle_);
+    return *this;
+  }
+  void reset() {
+    if (handle_ != nullptr) {
+      CHECK_CUDA_ERROR(Destroy(handle_));
+      handle_ = nullptr;
+    }
+  }
+  operator Handle() const {
+    return handle_;
+  }
+ protected:
+  Handle handle_;
+};
+namespace cu {
+class Device;
+}; // namespace cu
+// Wrappers of CUDA resources.
+class CudaGraph : public CudaHandle<cudaGraph_t, cudaGraphDestroy> {
+ public:
+  using CudaHandle::CudaHandle;
+  explicit CudaGraph(cu::Device& device);
+  void end_capture(cudaStream_t stream);
+};
+class CudaGraphExec : public CudaHandle<cudaGraphExec_t, cudaGraphExecDestroy> {
+ public:
+  void instantiate(cudaGraph_t graph);
+};
+class CudaStream : public CudaHandle<cudaStream_t, cudaStreamDestroy> {
+ public:
+  using CudaHandle::CudaHandle;
+  explicit CudaStream(cu::Device& device);
+};
+} // namespace mlx::core

data/mlx/mlx/backend/cuda/cudnn_utils.cpp ADDED Viewed

@@ -0,0 +1,133 @@
+// Copyright © 2025 Apple Inc.
+#include "mlx/backend/cuda/cudnn_utils.h"
+#include "mlx/backend/cuda/device.h"
+namespace mlx::core {
+namespace {
+#define RETURN_IF_ERROR(cmd)          \
+  if (auto ret = cmd; ret.is_bad()) { \
+    return ret;                       \
+  }
+// In MLX a singleton dim (shape[dim] == 1) can have any stride, but in cuDNN
+// whether a tensor is contiguous is determined with:
+// shape[dim] == shape[dim + 1] * strides[dim + 1]
+// So a contiguous array with singleton dims in MLX may be mistakenly treated
+// as strided in cuDNN, and we work around it by normalizing the strides.
+std::vector<int64_t> normalized_strides(const array& x) {
+  std::vector<int64_t> strides(x.strides().begin(), x.strides().end());
+  if (std::all_of(
+          strides.begin(), strides.end(), [](int64_t s) { return s == 0; })) {
+    strides.back() = 1;
+    return strides;
+  }
+  if (!x.flags().row_contiguous || x.ndim() < 2) {
+    return strides;
+  }
+  for (int i = x.ndim() - 2; i >= 0; --i) {
+    if (x.shape(i) == 1) {
+      strides[i] = x.shape(i + 1) * strides[i + 1];
+    }
+  }
+  return strides;
+}
+// Return the shape and strides after transposing from NHWC to NCHW.
+inline auto nhwc_to_nchw(const array& x) {
+  auto shape = convert_vector<int64_t>(x.shape());
+  auto strides = normalized_strides(x);
+  assert(shape.size() >= 3);
+  shape.insert(shape.begin() + 1, shape.back());
+  shape.erase(shape.end() - 1);
+  strides.insert(strides.begin() + 1, strides.back());
+  strides.erase(strides.end() - 1);
+  return std::make_tuple(std::move(shape), std::move(strides));
+}
+} // namespace
+fe::error_t DnnGraph::prepare() {
+  RETURN_IF_ERROR(validate());
+  try {
+    RETURN_IF_ERROR(build_operation_graph(handle_));
+  } catch (cudnn_frontend::cudnnException& error) {
+    // cuDNN bug: they did not catch all exceptions in the API.
+    return {fe::error_code_t::CUDNN_BACKEND_API_FAILED, error.what()};
+  }
+  RETURN_IF_ERROR(create_execution_plans({fe::HeurMode_t::A}));
+  return {};
+}
+fe::error_t DnnGraph::build() {
+  RETURN_IF_ERROR(check_support(handle_));
+  RETURN_IF_ERROR(build_plans(handle_));
+  return {};
+}
+fe::error_t DnnGraph::encode_graph(
+    cu::CommandEncoder& encoder,
+    std::unordered_map<int64_t, void*> variant_pack) {
+  cudnnSetStream(handle_, encoder.stream());
+  CudaGraph cuda_graph(encoder.device());
+  RETURN_IF_ERROR(populate_cuda_graph(
+      handle_, variant_pack, prepare_workspace(encoder), cuda_graph));
+  encoder.add_graph_node(cuda_graph);
+  return {};
+}
+fe::error_t DnnGraph::encode_capturing(
+    cu::CommandEncoder& encoder,
+    std::unordered_map<int64_t, void*> variant_pack) {
+  auto* workspace_ptr = prepare_workspace(encoder);
+  auto capture = encoder.capture_context();
+  cudnnSetStream(handle_, encoder.stream());
+  auto ret = execute(handle_, variant_pack, workspace_ptr);
+  if (ret.is_bad()) {
+    capture.discard = true;
+  }
+  return ret;
+}
+void* DnnGraph::prepare_workspace(cu::CommandEncoder& encoder) {
+  int64_t workspace_size = 0;
+  CHECK_CUDNN_FE_ERROR(get_workspace_size(workspace_size));
+  return allocate_workspace(encoder, workspace_size);
+}
+void DnnGraph::set_tensor_attrs(
+    std::shared_ptr<fe::graph::Tensor_attributes>& tensor,
+    int64_t uid,
+    const array& x,
+    const std::vector<int64_t>& shape,
+    const std::vector<int64_t>& strides) {
+  tensor->set_uid(uid)
+      .set_alignment(get_alignment(x))
+      .set_data_type(dtype_to_cudnn_type(x.dtype()))
+      .set_dim(shape)
+      .set_stride(strides);
+}
+void DnnGraph::set_tensor_attrs(
+    std::shared_ptr<fe::graph::Tensor_attributes>& tensor,
+    int64_t uid,
+    const array& x) {
+  set_tensor_attrs(
+      tensor,
+      uid,
+      x,
+      convert_vector<int64_t>(x.shape()),
+      normalized_strides(x));
+}
+void DnnGraph::set_tensor_attrs_nchw(
+    std::shared_ptr<fe::graph::Tensor_attributes>& tensor,
+    int64_t uid,
+    const array& x) {
+  auto [shape, strides] = nhwc_to_nchw(x);
+  set_tensor_attrs(tensor, uid, x, shape, strides);
+}
+} // namespace mlx::core