RubyGems - mlx - Versions diffs - 0.30.7 - Mend

mlx 0.30.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (599) hide show

checksums.yaml +7 -0
data/ext/mlx/extconf.rb +94 -0
data/ext/mlx/native.cpp +8027 -0
data/lib/mlx/core.rb +1678 -0
data/lib/mlx/distributed_utils/common.rb +116 -0
data/lib/mlx/distributed_utils/config.rb +600 -0
data/lib/mlx/distributed_utils/launch.rb +490 -0
data/lib/mlx/extension.rb +24 -0
data/lib/mlx/nn/base.rb +388 -0
data/lib/mlx/nn/init.rb +140 -0
data/lib/mlx/nn/layers/activations.rb +336 -0
data/lib/mlx/nn/layers/base.rb +6 -0
data/lib/mlx/nn/layers/containers.rb +20 -0
data/lib/mlx/nn/layers/convolution.rb +120 -0
data/lib/mlx/nn/layers/convolution_transpose.rb +114 -0
data/lib/mlx/nn/layers/distributed.rb +309 -0
data/lib/mlx/nn/layers/dropout.rb +75 -0
data/lib/mlx/nn/layers/embedding.rb +28 -0
data/lib/mlx/nn/layers/linear.rb +79 -0
data/lib/mlx/nn/layers/normalization.rb +216 -0
data/lib/mlx/nn/layers/pooling.rb +167 -0
data/lib/mlx/nn/layers/positional_encoding.rb +126 -0
data/lib/mlx/nn/layers/quantized.rb +215 -0
data/lib/mlx/nn/layers/recurrent.rb +135 -0
data/lib/mlx/nn/layers/transformer.rb +330 -0
data/lib/mlx/nn/layers/upsample.rb +97 -0
data/lib/mlx/nn/layers.rb +18 -0
data/lib/mlx/nn/losses.rb +251 -0
data/lib/mlx/nn/utils.rb +167 -0
data/lib/mlx/nn.rb +12 -0
data/lib/mlx/optimizers/optimizers.rb +808 -0
data/lib/mlx/optimizers/schedulers.rb +62 -0
data/lib/mlx/optimizers.rb +9 -0
data/lib/mlx/utils.rb +171 -0
data/lib/mlx/version.rb +5 -0
data/lib/mlx.rb +64 -0
data/mlx/CMakeLists.txt +449 -0
data/mlx/cmake/FindCUDNN.cmake +177 -0
data/mlx/cmake/FindNCCL.cmake +54 -0
data/mlx/cmake/Findnvpl.cmake +3 -0
data/mlx/cmake/extension.cmake +50 -0
data/mlx/mlx/3rdparty/.clang-format +2 -0
data/mlx/mlx/3rdparty/pocketfft.h +3581 -0
data/mlx/mlx/CMakeLists.txt +107 -0
data/mlx/mlx/allocator.h +75 -0
data/mlx/mlx/api.h +29 -0
data/mlx/mlx/array.cpp +354 -0
data/mlx/mlx/array.h +647 -0
data/mlx/mlx/backend/common/CMakeLists.txt +9 -0
data/mlx/mlx/backend/common/binary.h +97 -0
data/mlx/mlx/backend/common/broadcasting.cpp +24 -0
data/mlx/mlx/backend/common/broadcasting.h +11 -0
data/mlx/mlx/backend/common/buffer_cache.h +158 -0
data/mlx/mlx/backend/common/common.cpp +305 -0
data/mlx/mlx/backend/common/compiled.cpp +243 -0
data/mlx/mlx/backend/common/compiled.h +77 -0
data/mlx/mlx/backend/common/copy.h +50 -0
data/mlx/mlx/backend/common/hadamard.h +109 -0
data/mlx/mlx/backend/common/load.cpp +57 -0
data/mlx/mlx/backend/common/matmul.h +67 -0
data/mlx/mlx/backend/common/reduce.cpp +154 -0
data/mlx/mlx/backend/common/reduce.h +59 -0
data/mlx/mlx/backend/common/slicing.cpp +71 -0
data/mlx/mlx/backend/common/slicing.h +20 -0
data/mlx/mlx/backend/common/ternary.h +85 -0
data/mlx/mlx/backend/common/unary.h +29 -0
data/mlx/mlx/backend/common/utils.cpp +231 -0
data/mlx/mlx/backend/common/utils.h +205 -0
data/mlx/mlx/backend/cpu/CMakeLists.txt +88 -0
data/mlx/mlx/backend/cpu/arange.h +28 -0
data/mlx/mlx/backend/cpu/arg_reduce.cpp +124 -0
data/mlx/mlx/backend/cpu/binary.cpp +269 -0
data/mlx/mlx/backend/cpu/binary.h +517 -0
data/mlx/mlx/backend/cpu/binary_ops.h +98 -0
data/mlx/mlx/backend/cpu/binary_two.h +166 -0
data/mlx/mlx/backend/cpu/cholesky.cpp +85 -0
data/mlx/mlx/backend/cpu/compiled.cpp +357 -0
data/mlx/mlx/backend/cpu/compiled_preamble.h +12 -0
data/mlx/mlx/backend/cpu/conv.cpp +1351 -0
data/mlx/mlx/backend/cpu/copy.cpp +386 -0
data/mlx/mlx/backend/cpu/copy.h +36 -0
data/mlx/mlx/backend/cpu/device_info.cpp +113 -0
data/mlx/mlx/backend/cpu/device_info.h +28 -0
data/mlx/mlx/backend/cpu/distributed.cpp +103 -0
data/mlx/mlx/backend/cpu/eig.cpp +281 -0
data/mlx/mlx/backend/cpu/eigh.cpp +241 -0
data/mlx/mlx/backend/cpu/encoder.cpp +16 -0
data/mlx/mlx/backend/cpu/encoder.h +67 -0
data/mlx/mlx/backend/cpu/eval.cpp +40 -0
data/mlx/mlx/backend/cpu/eval.h +12 -0
data/mlx/mlx/backend/cpu/fft.cpp +120 -0
data/mlx/mlx/backend/cpu/gemm.h +26 -0
data/mlx/mlx/backend/cpu/gemms/bnns.cpp +214 -0
data/mlx/mlx/backend/cpu/gemms/cblas.cpp +134 -0
data/mlx/mlx/backend/cpu/gemms/simd_bf16.cpp +45 -0
data/mlx/mlx/backend/cpu/gemms/simd_fp16.cpp +45 -0
data/mlx/mlx/backend/cpu/gemms/simd_gemm.h +139 -0
data/mlx/mlx/backend/cpu/hadamard.cpp +121 -0
data/mlx/mlx/backend/cpu/indexing.cpp +854 -0
data/mlx/mlx/backend/cpu/inverse.cpp +160 -0
data/mlx/mlx/backend/cpu/jit_compiler.cpp +166 -0
data/mlx/mlx/backend/cpu/jit_compiler.h +20 -0
data/mlx/mlx/backend/cpu/lapack.h +80 -0
data/mlx/mlx/backend/cpu/logsumexp.cpp +139 -0
data/mlx/mlx/backend/cpu/luf.cpp +120 -0
data/mlx/mlx/backend/cpu/make_compiled_preamble.ps1 +38 -0
data/mlx/mlx/backend/cpu/make_compiled_preamble.sh +41 -0
data/mlx/mlx/backend/cpu/masked_mm.cpp +608 -0
data/mlx/mlx/backend/cpu/matmul.cpp +166 -0
data/mlx/mlx/backend/cpu/primitives.cpp +478 -0
data/mlx/mlx/backend/cpu/qrf.cpp +147 -0
data/mlx/mlx/backend/cpu/quantized.cpp +1370 -0
data/mlx/mlx/backend/cpu/reduce.cpp +587 -0
data/mlx/mlx/backend/cpu/scan.cpp +338 -0
data/mlx/mlx/backend/cpu/select.cpp +95 -0
data/mlx/mlx/backend/cpu/simd/accelerate_fp16_simd.h +56 -0
data/mlx/mlx/backend/cpu/simd/accelerate_simd.h +329 -0
data/mlx/mlx/backend/cpu/simd/base_simd.h +319 -0
data/mlx/mlx/backend/cpu/simd/math.h +193 -0
data/mlx/mlx/backend/cpu/simd/neon_fp16_simd.h +212 -0
data/mlx/mlx/backend/cpu/simd/simd.h +4 -0
data/mlx/mlx/backend/cpu/simd/type.h +11 -0
data/mlx/mlx/backend/cpu/slicing.h +21 -0
data/mlx/mlx/backend/cpu/softmax.cpp +170 -0
data/mlx/mlx/backend/cpu/sort.cpp +481 -0
data/mlx/mlx/backend/cpu/svd.cpp +289 -0
data/mlx/mlx/backend/cpu/ternary.h +154 -0
data/mlx/mlx/backend/cpu/threefry.cpp +31 -0
data/mlx/mlx/backend/cpu/threefry.h +21 -0
data/mlx/mlx/backend/cpu/unary.cpp +238 -0
data/mlx/mlx/backend/cpu/unary.h +281 -0
data/mlx/mlx/backend/cpu/unary_ops.h +175 -0
data/mlx/mlx/backend/cuda/CMakeLists.txt +265 -0
data/mlx/mlx/backend/cuda/allocator.cpp +451 -0
data/mlx/mlx/backend/cuda/allocator.h +94 -0
data/mlx/mlx/backend/cuda/arange.cu +68 -0
data/mlx/mlx/backend/cuda/arg_reduce.cu +189 -0
data/mlx/mlx/backend/cuda/bin2h.cmake +150 -0
data/mlx/mlx/backend/cuda/binary/CMakeLists.txt +21 -0
data/mlx/mlx/backend/cuda/binary/add.cu +7 -0
data/mlx/mlx/backend/cuda/binary/arctan2.cu +7 -0
data/mlx/mlx/backend/cuda/binary/binary.cuh +383 -0
data/mlx/mlx/backend/cuda/binary/bitwise_binary.cu +27 -0
data/mlx/mlx/backend/cuda/binary/divide.cu +7 -0
data/mlx/mlx/backend/cuda/binary/equal.cu +15 -0
data/mlx/mlx/backend/cuda/binary/greater.cu +7 -0
data/mlx/mlx/backend/cuda/binary/greater_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/less.cu +7 -0
data/mlx/mlx/backend/cuda/binary/less_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/log_add_exp.cu +7 -0
data/mlx/mlx/backend/cuda/binary/logical_and.cu +7 -0
data/mlx/mlx/backend/cuda/binary/logical_or.cu +7 -0
data/mlx/mlx/backend/cuda/binary/maximum.cu +7 -0
data/mlx/mlx/backend/cuda/binary/minimum.cu +7 -0
data/mlx/mlx/backend/cuda/binary/multiply.cu +7 -0
data/mlx/mlx/backend/cuda/binary/not_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/power.cu +7 -0
data/mlx/mlx/backend/cuda/binary/remainder.cu +7 -0
data/mlx/mlx/backend/cuda/binary/subtract.cu +7 -0
data/mlx/mlx/backend/cuda/binary_two.cu +412 -0
data/mlx/mlx/backend/cuda/compiled.cpp +357 -0
data/mlx/mlx/backend/cuda/conv/conv.h +126 -0
data/mlx/mlx/backend/cuda/conv/gemm_conv.cu +217 -0
data/mlx/mlx/backend/cuda/conv/gemm_grouped_conv.cu +231 -0
data/mlx/mlx/backend/cuda/conv.cpp +403 -0
data/mlx/mlx/backend/cuda/copy/copy.cuh +55 -0
data/mlx/mlx/backend/cuda/copy/copy_contiguous.cu +88 -0
data/mlx/mlx/backend/cuda/copy/copy_general.cu +171 -0
data/mlx/mlx/backend/cuda/copy/copy_general_dynamic.cu +118 -0
data/mlx/mlx/backend/cuda/copy/copy_general_input.cu +229 -0
data/mlx/mlx/backend/cuda/copy.cu +132 -0
data/mlx/mlx/backend/cuda/cublas_utils.cpp +222 -0
data/mlx/mlx/backend/cuda/cublas_utils.h +95 -0
data/mlx/mlx/backend/cuda/cuda.h +21 -0
data/mlx/mlx/backend/cuda/cuda_utils.h +90 -0
data/mlx/mlx/backend/cuda/cudnn_utils.cpp +133 -0
data/mlx/mlx/backend/cuda/cudnn_utils.h +187 -0
data/mlx/mlx/backend/cuda/custom_kernel.cpp +379 -0
data/mlx/mlx/backend/cuda/cutlass_utils.cuh +46 -0
data/mlx/mlx/backend/cuda/delayload.cpp +80 -0
data/mlx/mlx/backend/cuda/device/atomic_ops.cuh +63 -0
data/mlx/mlx/backend/cuda/device/binary_ops.cuh +300 -0
data/mlx/mlx/backend/cuda/device/cast_op.cuh +118 -0
data/mlx/mlx/backend/cuda/device/complex.cuh +60 -0
data/mlx/mlx/backend/cuda/device/config.h +12 -0
data/mlx/mlx/backend/cuda/device/fp16_math.cuh +96 -0
data/mlx/mlx/backend/cuda/device/gather.cuh +53 -0
data/mlx/mlx/backend/cuda/device/gather_axis.cuh +65 -0
data/mlx/mlx/backend/cuda/device/indexing.cuh +30 -0
data/mlx/mlx/backend/cuda/device/scatter.cuh +68 -0
data/mlx/mlx/backend/cuda/device/scatter_axis.cuh +67 -0
data/mlx/mlx/backend/cuda/device/scatter_ops.cuh +44 -0
data/mlx/mlx/backend/cuda/device/ternary_ops.cuh +13 -0
data/mlx/mlx/backend/cuda/device/unary_ops.cuh +350 -0
data/mlx/mlx/backend/cuda/device/utils.cuh +464 -0
data/mlx/mlx/backend/cuda/device.cpp +522 -0
data/mlx/mlx/backend/cuda/device.h +195 -0
data/mlx/mlx/backend/cuda/device_info.cpp +232 -0
data/mlx/mlx/backend/cuda/distributed.cu +121 -0
data/mlx/mlx/backend/cuda/eval.cpp +66 -0
data/mlx/mlx/backend/cuda/event.cu +415 -0
data/mlx/mlx/backend/cuda/event.h +79 -0
data/mlx/mlx/backend/cuda/fence.cpp +42 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm.cpp +233 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm.h +114 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm_batched_12_0.cpp +77 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm_batched_12_9.cu +329 -0
data/mlx/mlx/backend/cuda/gemms/gemv.cu +327 -0
data/mlx/mlx/backend/cuda/gemms/gemv.h +34 -0
data/mlx/mlx/backend/cuda/gemms/grouped_gemm.h +25 -0
data/mlx/mlx/backend/cuda/gemms/grouped_gemm_unaligned.cu +358 -0
data/mlx/mlx/backend/cuda/indexing.cpp +434 -0
data/mlx/mlx/backend/cuda/jit_module.cpp +443 -0
data/mlx/mlx/backend/cuda/jit_module.h +120 -0
data/mlx/mlx/backend/cuda/kernel_utils.cu +52 -0
data/mlx/mlx/backend/cuda/kernel_utils.cuh +148 -0
data/mlx/mlx/backend/cuda/layer_norm.cu +417 -0
data/mlx/mlx/backend/cuda/load.cpp +60 -0
data/mlx/mlx/backend/cuda/logsumexp.cu +161 -0
data/mlx/mlx/backend/cuda/lru_cache.h +190 -0
data/mlx/mlx/backend/cuda/matmul.cpp +373 -0
data/mlx/mlx/backend/cuda/no_cuda.cpp +47 -0
data/mlx/mlx/backend/cuda/primitives.cpp +46 -0
data/mlx/mlx/backend/cuda/quantized/affine_quantize.cu +329 -0
data/mlx/mlx/backend/cuda/quantized/convert_fp8.cu +19 -0
data/mlx/mlx/backend/cuda/quantized/cublas_qqmm.cpp +206 -0
data/mlx/mlx/backend/cuda/quantized/cublas_qqmm.h +88 -0
data/mlx/mlx/backend/cuda/quantized/cuda_fp4.h +100 -0
data/mlx/mlx/backend/cuda/quantized/fp_quantize.cu +496 -0
data/mlx/mlx/backend/cuda/quantized/mxfp8_quantize.cuh +32 -0
data/mlx/mlx/backend/cuda/quantized/no_qqmm_impl.cpp +26 -0
data/mlx/mlx/backend/cuda/quantized/nvfp4_quantize.cuh +334 -0
data/mlx/mlx/backend/cuda/quantized/qmv.cu +304 -0
data/mlx/mlx/backend/cuda/quantized/qmv.h +21 -0
data/mlx/mlx/backend/cuda/quantized/qqmm.cpp +158 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_impl.cpp +50 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_impl.h +26 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_utils.cu +227 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_utils.h +30 -0
data/mlx/mlx/backend/cuda/quantized/quantized.cpp +85 -0
data/mlx/mlx/backend/cuda/quantized/quantized.h +53 -0
data/mlx/mlx/backend/cuda/quantized/quantized_utils.cuh +88 -0
data/mlx/mlx/backend/cuda/quantized/quantized_utils.h +50 -0
data/mlx/mlx/backend/cuda/random.cu +202 -0
data/mlx/mlx/backend/cuda/reduce/all_reduce.cu +159 -0
data/mlx/mlx/backend/cuda/reduce/col_reduce.cu +510 -0
data/mlx/mlx/backend/cuda/reduce/init_reduce.cu +50 -0
data/mlx/mlx/backend/cuda/reduce/reduce.cuh +71 -0
data/mlx/mlx/backend/cuda/reduce/reduce_ops.cuh +211 -0
data/mlx/mlx/backend/cuda/reduce/reduce_utils.cuh +145 -0
data/mlx/mlx/backend/cuda/reduce/row_reduce.cu +361 -0
data/mlx/mlx/backend/cuda/reduce.cu +73 -0
data/mlx/mlx/backend/cuda/rms_norm.cu +536 -0
data/mlx/mlx/backend/cuda/rope.cu +429 -0
data/mlx/mlx/backend/cuda/scaled_dot_product_attention.cpp +681 -0
data/mlx/mlx/backend/cuda/scaled_dot_product_attention.cu +796 -0
data/mlx/mlx/backend/cuda/scan.cu +468 -0
data/mlx/mlx/backend/cuda/slicing.cpp +111 -0
data/mlx/mlx/backend/cuda/softmax.cu +162 -0
data/mlx/mlx/backend/cuda/sort.cu +1076 -0
data/mlx/mlx/backend/cuda/steel/defines.cuh +9 -0
data/mlx/mlx/backend/cuda/steel/gemm.cuh +101 -0
data/mlx/mlx/backend/cuda/steel/mma.cuh +117 -0
data/mlx/mlx/backend/cuda/steel/tiles.cuh +450 -0
data/mlx/mlx/backend/cuda/steel/utils.cuh +89 -0
data/mlx/mlx/backend/cuda/ternary.cu +271 -0
data/mlx/mlx/backend/cuda/unary/CMakeLists.txt +34 -0
data/mlx/mlx/backend/cuda/unary/abs.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arccos.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arccosh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arcsin.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arcsinh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arctan.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arctanh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/bitwise_invert.cu +7 -0
data/mlx/mlx/backend/cuda/unary/ceil.cu +7 -0
data/mlx/mlx/backend/cuda/unary/conjugate.cu +7 -0
data/mlx/mlx/backend/cuda/unary/cos.cu +7 -0
data/mlx/mlx/backend/cuda/unary/cosh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/erf.cu +7 -0
data/mlx/mlx/backend/cuda/unary/erf_inv.cu +7 -0
data/mlx/mlx/backend/cuda/unary/exp.cu +7 -0
data/mlx/mlx/backend/cuda/unary/expm1.cu +7 -0
data/mlx/mlx/backend/cuda/unary/floor.cu +7 -0
data/mlx/mlx/backend/cuda/unary/imag.cu +7 -0
data/mlx/mlx/backend/cuda/unary/log.cu +21 -0
data/mlx/mlx/backend/cuda/unary/log1p.cu +7 -0
data/mlx/mlx/backend/cuda/unary/logical_not.cu +7 -0
data/mlx/mlx/backend/cuda/unary/negative.cu +7 -0
data/mlx/mlx/backend/cuda/unary/real.cu +7 -0
data/mlx/mlx/backend/cuda/unary/round.cu +18 -0
data/mlx/mlx/backend/cuda/unary/sigmoid.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sign.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sin.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sinh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sqrt.cu +15 -0
data/mlx/mlx/backend/cuda/unary/square.cu +7 -0
data/mlx/mlx/backend/cuda/unary/tan.cu +7 -0
data/mlx/mlx/backend/cuda/unary/tanh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/unary.cuh +224 -0
data/mlx/mlx/backend/cuda/utils.cpp +116 -0
data/mlx/mlx/backend/cuda/utils.h +49 -0
data/mlx/mlx/backend/cuda/vector_types.cuh +48 -0
data/mlx/mlx/backend/cuda/worker.cpp +79 -0
data/mlx/mlx/backend/cuda/worker.h +55 -0
data/mlx/mlx/backend/gpu/CMakeLists.txt +5 -0
data/mlx/mlx/backend/gpu/copy.cpp +89 -0
data/mlx/mlx/backend/gpu/copy.h +57 -0
data/mlx/mlx/backend/gpu/device_info.h +36 -0
data/mlx/mlx/backend/gpu/eval.h +18 -0
data/mlx/mlx/backend/gpu/primitives.cpp +307 -0
data/mlx/mlx/backend/gpu/slicing.cpp +44 -0
data/mlx/mlx/backend/gpu/slicing.h +36 -0
data/mlx/mlx/backend/metal/CMakeLists.txt +144 -0
data/mlx/mlx/backend/metal/allocator.cpp +279 -0
data/mlx/mlx/backend/metal/allocator.h +79 -0
data/mlx/mlx/backend/metal/binary.cpp +257 -0
data/mlx/mlx/backend/metal/binary.h +33 -0
data/mlx/mlx/backend/metal/compiled.cpp +471 -0
data/mlx/mlx/backend/metal/conv.cpp +1118 -0
data/mlx/mlx/backend/metal/copy.cpp +235 -0
data/mlx/mlx/backend/metal/custom_kernel.cpp +430 -0
data/mlx/mlx/backend/metal/device.cpp +816 -0
data/mlx/mlx/backend/metal/device.h +289 -0
data/mlx/mlx/backend/metal/device_info.cpp +58 -0
data/mlx/mlx/backend/metal/distributed.cpp +38 -0
data/mlx/mlx/backend/metal/eval.cpp +97 -0
data/mlx/mlx/backend/metal/event.cpp +62 -0
data/mlx/mlx/backend/metal/fence.cpp +162 -0
data/mlx/mlx/backend/metal/fft.cpp +807 -0
data/mlx/mlx/backend/metal/hadamard.cpp +198 -0
data/mlx/mlx/backend/metal/indexing.cpp +727 -0
data/mlx/mlx/backend/metal/jit/includes.h +58 -0
data/mlx/mlx/backend/metal/jit/indexing.h +76 -0
data/mlx/mlx/backend/metal/jit_kernels.cpp +1118 -0
data/mlx/mlx/backend/metal/kernels/CMakeLists.txt +193 -0
data/mlx/mlx/backend/metal/kernels/arange.h +9 -0
data/mlx/mlx/backend/metal/kernels/arange.metal +20 -0
data/mlx/mlx/backend/metal/kernels/arg_reduce.metal +182 -0
data/mlx/mlx/backend/metal/kernels/atomic.h +345 -0
data/mlx/mlx/backend/metal/kernels/bf16.h +16 -0
data/mlx/mlx/backend/metal/kernels/bf16_math.h +380 -0
data/mlx/mlx/backend/metal/kernels/binary.h +199 -0
data/mlx/mlx/backend/metal/kernels/binary.metal +109 -0
data/mlx/mlx/backend/metal/kernels/binary_ops.h +330 -0
data/mlx/mlx/backend/metal/kernels/binary_two.h +244 -0
data/mlx/mlx/backend/metal/kernels/binary_two.metal +54 -0
data/mlx/mlx/backend/metal/kernels/cexpf.h +134 -0
data/mlx/mlx/backend/metal/kernels/complex.h +173 -0
data/mlx/mlx/backend/metal/kernels/conv.metal +701 -0
data/mlx/mlx/backend/metal/kernels/copy.h +276 -0
data/mlx/mlx/backend/metal/kernels/copy.metal +75 -0
data/mlx/mlx/backend/metal/kernels/defines.h +24 -0
data/mlx/mlx/backend/metal/kernels/erf.h +69 -0
data/mlx/mlx/backend/metal/kernels/expm1f.h +90 -0
data/mlx/mlx/backend/metal/kernels/fence.metal +52 -0
data/mlx/mlx/backend/metal/kernels/fft/radix.h +328 -0
data/mlx/mlx/backend/metal/kernels/fft/readwrite.h +624 -0
data/mlx/mlx/backend/metal/kernels/fft.h +486 -0
data/mlx/mlx/backend/metal/kernels/fft.metal +67 -0
data/mlx/mlx/backend/metal/kernels/fp4.h +48 -0
data/mlx/mlx/backend/metal/kernels/fp8.h +80 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized.h +1850 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized.metal +153 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized_nax.h +1044 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized_nax.metal +79 -0
data/mlx/mlx/backend/metal/kernels/gemv.metal +868 -0
data/mlx/mlx/backend/metal/kernels/gemv_masked.h +827 -0
data/mlx/mlx/backend/metal/kernels/gemv_masked.metal +76 -0
data/mlx/mlx/backend/metal/kernels/hadamard.h +182 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather.h +51 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather_axis.h +44 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather_front.h +24 -0
data/mlx/mlx/backend/metal/kernels/indexing/indexing.h +23 -0
data/mlx/mlx/backend/metal/kernels/indexing/masked_scatter.h +41 -0
data/mlx/mlx/backend/metal/kernels/indexing/scatter.h +59 -0
data/mlx/mlx/backend/metal/kernels/indexing/scatter_axis.h +52 -0
data/mlx/mlx/backend/metal/kernels/layer_norm.metal +433 -0
data/mlx/mlx/backend/metal/kernels/logging.h +26 -0
data/mlx/mlx/backend/metal/kernels/logsumexp.h +140 -0
data/mlx/mlx/backend/metal/kernels/logsumexp.metal +18 -0
data/mlx/mlx/backend/metal/kernels/quantized.h +2508 -0
data/mlx/mlx/backend/metal/kernels/quantized.metal +144 -0
data/mlx/mlx/backend/metal/kernels/quantized_nax.h +1705 -0
data/mlx/mlx/backend/metal/kernels/quantized_nax.metal +106 -0
data/mlx/mlx/backend/metal/kernels/quantized_utils.h +90 -0
data/mlx/mlx/backend/metal/kernels/random.metal +103 -0
data/mlx/mlx/backend/metal/kernels/reduce.h +5 -0
data/mlx/mlx/backend/metal/kernels/reduce.metal +169 -0
data/mlx/mlx/backend/metal/kernels/reduce_utils.h +6 -0
data/mlx/mlx/backend/metal/kernels/reduction/ops.h +275 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_all.h +66 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_col.h +398 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_init.h +8 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_row.h +369 -0
data/mlx/mlx/backend/metal/kernels/rms_norm.metal +391 -0
data/mlx/mlx/backend/metal/kernels/rope.metal +229 -0
data/mlx/mlx/backend/metal/kernels/scaled_dot_product_attention.metal +44 -0
data/mlx/mlx/backend/metal/kernels/scan.h +514 -0
data/mlx/mlx/backend/metal/kernels/scan.metal +109 -0
data/mlx/mlx/backend/metal/kernels/sdpa_vector.h +394 -0
data/mlx/mlx/backend/metal/kernels/softmax.h +190 -0
data/mlx/mlx/backend/metal/kernels/softmax.metal +24 -0
data/mlx/mlx/backend/metal/kernels/sort.h +719 -0
data/mlx/mlx/backend/metal/kernels/sort.metal +80 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/attn.h +296 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention.h +471 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention.metal +27 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention_nax.h +481 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention_nax.metal +28 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/loader.h +264 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/mma.h +750 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/nax.h +1076 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/params.h +44 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/transforms.h +71 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/conv.h +13 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv.h +176 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv.metal +56 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_general.h +225 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_general.metal +47 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loader.h +6 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_l.h +451 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_n.h +319 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_general.h +381 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/params.h +62 -0
data/mlx/mlx/backend/metal/kernels/steel/defines.h +7 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/gemm.h +295 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/gemm_nax.h +157 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused.h +346 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused.metal +34 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused_nax.h +219 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused_nax.metal +30 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather.h +459 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather.metal +59 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather_nax.h +143 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather_nax.metal +37 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_masked.h +719 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_masked.metal +76 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_segmented.h +266 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_segmented.metal +43 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk.h +227 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk.metal +76 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk_nax.h +152 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk_nax.metal +30 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/loader.h +137 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/mma.h +1146 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/nax.h +1084 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/params.h +65 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/transforms.h +72 -0
data/mlx/mlx/backend/metal/kernels/steel/utils/integral_constant.h +134 -0
data/mlx/mlx/backend/metal/kernels/steel/utils/type_traits.h +55 -0
data/mlx/mlx/backend/metal/kernels/steel/utils.h +42 -0
data/mlx/mlx/backend/metal/kernels/ternary.h +145 -0
data/mlx/mlx/backend/metal/kernels/ternary.metal +48 -0
data/mlx/mlx/backend/metal/kernels/ternary_ops.h +10 -0
data/mlx/mlx/backend/metal/kernels/unary.h +63 -0
data/mlx/mlx/backend/metal/kernels/unary.metal +115 -0
data/mlx/mlx/backend/metal/kernels/unary_ops.h +454 -0
data/mlx/mlx/backend/metal/kernels/utils.h +445 -0
data/mlx/mlx/backend/metal/kernels.h +375 -0
data/mlx/mlx/backend/metal/logsumexp.cpp +95 -0
data/mlx/mlx/backend/metal/make_compiled_preamble.sh +120 -0
data/mlx/mlx/backend/metal/matmul.cpp +2572 -0
data/mlx/mlx/backend/metal/matmul.h +144 -0
data/mlx/mlx/backend/metal/metal.cpp +50 -0
data/mlx/mlx/backend/metal/metal.h +25 -0
data/mlx/mlx/backend/metal/no_metal.cpp +42 -0
data/mlx/mlx/backend/metal/nojit_kernels.cpp +414 -0
data/mlx/mlx/backend/metal/normalization.cpp +433 -0
data/mlx/mlx/backend/metal/primitives.cpp +242 -0
data/mlx/mlx/backend/metal/quantized.cpp +1651 -0
data/mlx/mlx/backend/metal/reduce.cpp +1038 -0
data/mlx/mlx/backend/metal/reduce.h +41 -0
data/mlx/mlx/backend/metal/resident.cpp +100 -0
data/mlx/mlx/backend/metal/resident.h +32 -0
data/mlx/mlx/backend/metal/rope.cpp +165 -0
data/mlx/mlx/backend/metal/scaled_dot_product_attention.cpp +798 -0
data/mlx/mlx/backend/metal/scan.cpp +145 -0
data/mlx/mlx/backend/metal/scan.h +17 -0
data/mlx/mlx/backend/metal/slicing.cpp +99 -0
data/mlx/mlx/backend/metal/softmax.cpp +87 -0
data/mlx/mlx/backend/metal/sort.cpp +368 -0
data/mlx/mlx/backend/metal/ternary.cpp +160 -0
data/mlx/mlx/backend/metal/ternary.h +21 -0
data/mlx/mlx/backend/metal/unary.cpp +161 -0
data/mlx/mlx/backend/metal/unary.h +21 -0
data/mlx/mlx/backend/metal/utils.cpp +77 -0
data/mlx/mlx/backend/metal/utils.h +99 -0
data/mlx/mlx/backend/no_cpu/CMakeLists.txt +7 -0
data/mlx/mlx/backend/no_cpu/compiled.cpp +24 -0
data/mlx/mlx/backend/no_cpu/device_info.cpp +22 -0
data/mlx/mlx/backend/no_cpu/primitives.cpp +146 -0
data/mlx/mlx/backend/no_gpu/CMakeLists.txt +8 -0
data/mlx/mlx/backend/no_gpu/allocator.cpp +134 -0
data/mlx/mlx/backend/no_gpu/apple_memory.h +16 -0
data/mlx/mlx/backend/no_gpu/device_info.cpp +22 -0
data/mlx/mlx/backend/no_gpu/eval.cpp +24 -0
data/mlx/mlx/backend/no_gpu/event.cpp +53 -0
data/mlx/mlx/backend/no_gpu/fence.cpp +54 -0
data/mlx/mlx/backend/no_gpu/linux_memory.h +22 -0
data/mlx/mlx/backend/no_gpu/primitives.cpp +185 -0
data/mlx/mlx/compile.cpp +1243 -0
data/mlx/mlx/compile.h +45 -0
data/mlx/mlx/compile_impl.h +70 -0
data/mlx/mlx/device.cpp +72 -0
data/mlx/mlx/device.h +56 -0
data/mlx/mlx/distributed/CMakeLists.txt +14 -0
data/mlx/mlx/distributed/distributed.cpp +197 -0
data/mlx/mlx/distributed/distributed.h +61 -0
data/mlx/mlx/distributed/distributed_impl.h +59 -0
data/mlx/mlx/distributed/jaccl/CMakeLists.txt +12 -0
data/mlx/mlx/distributed/jaccl/jaccl.cpp +178 -0
data/mlx/mlx/distributed/jaccl/jaccl.h +12 -0
data/mlx/mlx/distributed/jaccl/mesh.cpp +451 -0
data/mlx/mlx/distributed/jaccl/mesh.h +122 -0
data/mlx/mlx/distributed/jaccl/no_jaccl.cpp +20 -0
data/mlx/mlx/distributed/jaccl/ring.cpp +692 -0
data/mlx/mlx/distributed/jaccl/ring.h +178 -0
data/mlx/mlx/distributed/jaccl/utils.cpp +329 -0
data/mlx/mlx/distributed/jaccl/utils.h +342 -0
data/mlx/mlx/distributed/mpi/CMakeLists.txt +5 -0
data/mlx/mlx/distributed/mpi/mpi.cpp +501 -0
data/mlx/mlx/distributed/mpi/mpi.h +12 -0
data/mlx/mlx/distributed/mpi/mpi_declarations.h +28 -0
data/mlx/mlx/distributed/mpi/no_mpi.cpp +20 -0
data/mlx/mlx/distributed/nccl/CMakeLists.txt +26 -0
data/mlx/mlx/distributed/nccl/nccl.cpp +443 -0
data/mlx/mlx/distributed/nccl/nccl.h +12 -0
data/mlx/mlx/distributed/nccl/nccl_stub/CMakeLists.txt +1 -0
data/mlx/mlx/distributed/nccl/nccl_stub/nccl_stubs.cpp +54 -0
data/mlx/mlx/distributed/nccl/no_nccl.cpp +20 -0
data/mlx/mlx/distributed/ops.cpp +186 -0
data/mlx/mlx/distributed/ops.h +57 -0
data/mlx/mlx/distributed/primitives.cpp +95 -0
data/mlx/mlx/distributed/primitives.h +156 -0
data/mlx/mlx/distributed/reduction_ops.h +38 -0
data/mlx/mlx/distributed/ring/CMakeLists.txt +5 -0
data/mlx/mlx/distributed/ring/no_ring.cpp +20 -0
data/mlx/mlx/distributed/ring/ring.cpp +870 -0
data/mlx/mlx/distributed/ring/ring.h +12 -0
data/mlx/mlx/distributed/utils.cpp +206 -0
data/mlx/mlx/distributed/utils.h +67 -0
data/mlx/mlx/dtype.cpp +197 -0
data/mlx/mlx/dtype.h +116 -0
data/mlx/mlx/dtype_utils.cpp +42 -0
data/mlx/mlx/dtype_utils.h +119 -0
data/mlx/mlx/einsum.cpp +941 -0
data/mlx/mlx/einsum.h +23 -0
data/mlx/mlx/event.h +58 -0
data/mlx/mlx/export.cpp +1130 -0
data/mlx/mlx/export.h +137 -0
data/mlx/mlx/export_impl.h +99 -0
data/mlx/mlx/fast.cpp +941 -0
data/mlx/mlx/fast.h +103 -0
data/mlx/mlx/fast_primitives.h +427 -0
data/mlx/mlx/fence.h +39 -0
data/mlx/mlx/fft.cpp +262 -0
data/mlx/mlx/fft.h +159 -0
data/mlx/mlx/graph_utils.cpp +175 -0
data/mlx/mlx/graph_utils.h +67 -0
data/mlx/mlx/io/CMakeLists.txt +25 -0
data/mlx/mlx/io/gguf.cpp +470 -0
data/mlx/mlx/io/gguf.h +20 -0
data/mlx/mlx/io/gguf_quants.cpp +164 -0
data/mlx/mlx/io/load.cpp +397 -0
data/mlx/mlx/io/load.h +175 -0
data/mlx/mlx/io/no_gguf.cpp +20 -0
data/mlx/mlx/io/no_safetensors.cpp +37 -0
data/mlx/mlx/io/safetensors.cpp +234 -0
data/mlx/mlx/io.h +61 -0
data/mlx/mlx/linalg.cpp +708 -0
data/mlx/mlx/linalg.h +115 -0
data/mlx/mlx/memory.h +80 -0
data/mlx/mlx/mlx.h +25 -0
data/mlx/mlx/ops.cpp +6094 -0
data/mlx/mlx/ops.h +1610 -0
data/mlx/mlx/primitives.cpp +5850 -0
data/mlx/mlx/primitives.h +2525 -0
data/mlx/mlx/random.cpp +492 -0
data/mlx/mlx/random.h +283 -0
data/mlx/mlx/scheduler.cpp +73 -0
data/mlx/mlx/scheduler.h +189 -0
data/mlx/mlx/small_vector.h +540 -0
data/mlx/mlx/stream.h +42 -0
data/mlx/mlx/threadpool.h +133 -0
data/mlx/mlx/transforms.cpp +1065 -0
data/mlx/mlx/transforms.h +231 -0
data/mlx/mlx/transforms_impl.h +88 -0
data/mlx/mlx/types/bf16.h +187 -0
data/mlx/mlx/types/complex.h +113 -0
data/mlx/mlx/types/fp16.h +234 -0
data/mlx/mlx/types/half_types.h +58 -0
data/mlx/mlx/types/limits.h +70 -0
data/mlx/mlx/utils.cpp +302 -0
data/mlx/mlx/utils.h +174 -0
data/mlx/mlx/version.cpp +11 -0
data/mlx/mlx/version.h +22 -0
data/mlx/mlx.pc.in +52 -0
metadata +643 -0

data/mlx/mlx/backend/cuda/sort.cu ADDED Viewed

@@ -0,0 +1,1076 @@
+// Copyright © 2025 Apple Inc.
+#include <algorithm>
+#include <cassert>
+#include <cstdint>
+#include "mlx/backend/cuda/device.h"
+#include "mlx/backend/cuda/device/fp16_math.cuh"
+#include "mlx/backend/cuda/kernel_utils.cuh"
+#include "mlx/backend/gpu/copy.h"
+#include "mlx/dtype_utils.h"
+#include "mlx/primitives.h"
+#include <nvtx3/nvtx3.hpp>
+#include <cuda/std/limits>
+#include <cuda/std/type_traits>
+namespace mlx::core {
+constexpr int N_PER_THREAD = 8;
+namespace cu {
+template <typename T>
+__device__ __forceinline__ T nan_value();
+template <>
+__device__ __forceinline__ float nan_value<float>() {
+  return cuda::std::numeric_limits<float>::quiet_NaN();
+}
+template <>
+__device__ __forceinline__ double nan_value<double>() {
+  return cuda::std::numeric_limits<double>::quiet_NaN();
+}
+template <>
+__device__ __forceinline__ __half nan_value<__half>() {
+  return __float2half(cuda::std::numeric_limits<float>::quiet_NaN());
+}
+template <>
+__device__ __forceinline__ __nv_bfloat16 nan_value<__nv_bfloat16>() {
+  return __float2bfloat16(cuda::std::numeric_limits<float>::quiet_NaN());
+}
+template <typename T, typename = void>
+struct InitValue {
+  __device__ __forceinline__ static T value() {
+    return Limits<T>::max();
+  }
+};
+template <typename T>
+struct InitValue<T, cuda::std::enable_if_t<std::is_floating_point_v<T>>> {
+  __device__ __forceinline__ static T value() {
+    return nan_value<T>();
+  }
+};
+template <typename T>
+__device__ __forceinline__ void thread_swap(T& a, T& b) {
+  T w = a;
+  a = b;
+  b = w;
+}
+template <typename T>
+struct LessThan {
+  __device__ __forceinline__ static T init() {
+    return InitValue<T>::value();
+  }
+  __device__ __forceinline__ bool operator()(T a, T b) const {
+    if constexpr (std::is_floating_point_v<T>) {
+      bool an = cuda::std::isnan(a);
+      bool bn = cuda::std::isnan(b);
+      if (an | bn) {
+        return (!an) & bn;
+      }
+    }
+    return a < b;
+  }
+};
+template <
+    typename ValT,
+    typename IdxT,
+    bool ARG_SORT,
+    int N_PER_THREAD,
+    typename CompareOp>
+struct ThreadSort {
+  __device__ __forceinline__ static void sort(
+      ValT (&vals)[N_PER_THREAD],
+      IdxT (&idxs)[N_PER_THREAD]) {
+    CompareOp op;
+#pragma unroll
+    for (int i = 0; i < N_PER_THREAD; ++i) {
+#pragma unroll
+      for (int j = i & 1; j < N_PER_THREAD - 1; j += 2) {
+        if (op(vals[j + 1], vals[j])) {
+          thread_swap(vals[j + 1], vals[j]);
+          if constexpr (ARG_SORT) {
+            thread_swap(idxs[j + 1], idxs[j]);
+          }
+        }
+      }
+    }
+  }
+};
+template <
+    typename ValT,
+    typename IdxT,
+    bool ARG_SORT,
+    int BLOCK_THREADS,
+    int N_PER_THREAD,
+    typename CompareOp>
+struct BlockMergeSort {
+  using thread_sort_t =
+      ThreadSort<ValT, IdxT, ARG_SORT, N_PER_THREAD, CompareOp>;
+  __device__ __forceinline__ static int merge_partition(
+      const ValT* As,
+      const ValT* Bs,
+      int A_sz,
+      int B_sz,
+      int sort_md) {
+    CompareOp op;
+    int A_st = max(0, sort_md - B_sz);
+    int A_ed = min(sort_md, A_sz);
+    while (A_st < A_ed) {
+      int md = A_st + (A_ed - A_st) / 2;
+      auto a = As[md];
+      auto b = Bs[sort_md - 1 - md];
+      if (op(b, a)) {
+        A_ed = md;
+      } else {
+        A_st = md + 1;
+      }
+    }
+    return A_ed;
+  }
+  __device__ __forceinline__ static void merge_step(
+      const ValT* As,
+      const ValT* Bs,
+      const IdxT* As_idx,
+      const IdxT* Bs_idx,
+      int A_sz,
+      int B_sz,
+      ValT (&vals)[N_PER_THREAD],
+      IdxT (&idxs)[N_PER_THREAD]) {
+    CompareOp op;
+    int a_idx = 0;
+    int b_idx = 0;
+#pragma unroll
+    for (int i = 0; i < N_PER_THREAD; ++i) {
+      auto a = (a_idx < A_sz) ? As[a_idx] : ValT(CompareOp::init());
+      auto b = (b_idx < B_sz) ? Bs[b_idx] : ValT(CompareOp::init());
+      bool pred = (b_idx < B_sz) && (a_idx >= A_sz || op(b, a));
+      vals[i] = pred ? b : a;
+      if constexpr (ARG_SORT) {
+        if (pred) {
+          idxs[i] = Bs_idx[b_idx];
+        } else {
+          idxs[i] = (a_idx < A_sz) ? As_idx[a_idx] : IdxT(0);
+        }
+      }
+      b_idx += int(pred);
+      a_idx += int(!pred);
+    }
+  }
+  __device__ __forceinline__ static void
+  sort(ValT* tgp_vals, IdxT* tgp_idxs, int size_sorted_axis) {
+    int idx = threadIdx.x * N_PER_THREAD;
+    ValT thread_vals[N_PER_THREAD];
+    IdxT thread_idxs[N_PER_THREAD];
+#pragma unroll
+    for (int i = 0; i < N_PER_THREAD; ++i) {
+      thread_vals[i] = tgp_vals[idx + i];
+      if constexpr (ARG_SORT) {
+        thread_idxs[i] = tgp_idxs[idx + i];
+      }
+    }
+    if (idx < size_sorted_axis) {
+      thread_sort_t::sort(thread_vals, thread_idxs);
+    }
+    for (int merge_threads = 2; merge_threads <= BLOCK_THREADS;
+         merge_threads *= 2) {
+      __syncthreads();
+#pragma unroll
+      for (int i = 0; i < N_PER_THREAD; ++i) {
+        tgp_vals[idx + i] = thread_vals[i];
+        if constexpr (ARG_SORT) {
+          tgp_idxs[idx + i] = thread_idxs[i];
+        }
+      }
+      __syncthreads();
+      int merge_group = threadIdx.x / merge_threads;
+      int merge_lane = threadIdx.x % merge_threads;
+      int sort_sz = N_PER_THREAD * merge_threads;
+      int sort_st = N_PER_THREAD * merge_threads * merge_group;
+      int A_st = sort_st;
+      int A_ed = sort_st + sort_sz / 2;
+      int B_st = sort_st + sort_sz / 2;
+      int B_ed = sort_st + sort_sz;
+      const ValT* As = tgp_vals + A_st;
+      const ValT* Bs = tgp_vals + B_st;
+      int A_sz = A_ed - A_st;
+      int B_sz = B_ed - B_st;
+      int sort_md = N_PER_THREAD * merge_lane;
+      int partition = merge_partition(As, Bs, A_sz, B_sz, sort_md);
+      As += partition;
+      Bs += sort_md - partition;
+      A_sz -= partition;
+      B_sz -= sort_md - partition;
+      const IdxT* As_idx = ARG_SORT ? tgp_idxs + A_st + partition : nullptr;
+      const IdxT* Bs_idx =
+          ARG_SORT ? tgp_idxs + B_st + sort_md - partition : nullptr;
+      merge_step(As, Bs, As_idx, Bs_idx, A_sz, B_sz, thread_vals, thread_idxs);
+    }
+    __syncthreads();
+#pragma unroll
+    for (int i = 0; i < N_PER_THREAD; ++i) {
+      tgp_vals[idx + i] = thread_vals[i];
+      if constexpr (ARG_SORT) {
+        tgp_idxs[idx + i] = thread_idxs[i];
+      }
+    }
+  }
+};
+template <
+    typename T,
+    typename U,
+    bool ARG_SORT,
+    int BLOCK_THREADS,
+    int N_PER_THREAD,
+    typename CompareOp = LessThan<T>>
+struct KernelMergeSort {
+  using ValT = T;
+  using IdxT = uint32_t;
+  using block_merge_sort_t = BlockMergeSort<
+      ValT,
+      IdxT,
+      ARG_SORT,
+      BLOCK_THREADS,
+      N_PER_THREAD,
+      CompareOp>;
+  static constexpr int N_PER_BLOCK = BLOCK_THREADS * N_PER_THREAD;
+  __device__ __forceinline__ static void block_sort(
+      const T* inp,
+      U* out,
+      int size_sorted_axis,
+      int64_t in_stride_sorted_axis,
+      int64_t out_stride_sorted_axis,
+      int64_t in_stride_segment_axis,
+      int64_t out_stride_segment_axis,
+      ValT* tgp_vals,
+      IdxT* tgp_idxs) {
+    inp += blockIdx.y * in_stride_segment_axis;
+    out += blockIdx.y * out_stride_segment_axis;
+    for (int i = threadIdx.x; i < N_PER_BLOCK; i += BLOCK_THREADS) {
+      tgp_vals[i] = i < size_sorted_axis ? inp[i * in_stride_sorted_axis]
+                                         : ValT(CompareOp::init());
+      if constexpr (ARG_SORT) {
+        tgp_idxs[i] = i;
+      }
+    }
+    __syncthreads();
+    block_merge_sort_t::sort(tgp_vals, tgp_idxs, size_sorted_axis);
+    __syncthreads();
+    for (int i = threadIdx.x; i < size_sorted_axis; i += BLOCK_THREADS) {
+      if constexpr (ARG_SORT) {
+        out[i * out_stride_sorted_axis] = tgp_idxs[i];
+      } else {
+        out[i * out_stride_sorted_axis] = tgp_vals[i];
+      }
+    }
+  }
+};
+template <
+    typename T,
+    typename U,
+    bool ARG_SORT,
+    int BLOCK_THREADS,
+    int N_PER_THREAD>
+__global__ void block_sort_kernel(
+    const T* inp,
+    U* out,
+    int size_sorted_axis,
+    int64_t in_stride_sorted_axis,
+    int64_t out_stride_sorted_axis,
+    int64_t in_stride_segment_axis,
+    int64_t out_stride_segment_axis) {
+  using sort_kernel =
+      KernelMergeSort<T, U, ARG_SORT, BLOCK_THREADS, N_PER_THREAD>;
+  using ValT = typename sort_kernel::ValT;
+  using IdxT = typename sort_kernel::IdxT;
+  if constexpr (ARG_SORT) {
+    __shared__ ValT tgp_vals[sort_kernel::N_PER_BLOCK];
+    __shared__ IdxT tgp_idxs[sort_kernel::N_PER_BLOCK];
+    sort_kernel::block_sort(
+        inp,
+        out,
+        size_sorted_axis,
+        in_stride_sorted_axis,
+        out_stride_sorted_axis,
+        in_stride_segment_axis,
+        out_stride_segment_axis,
+        tgp_vals,
+        tgp_idxs);
+  } else {
+    __shared__ ValT tgp_vals[sort_kernel::N_PER_BLOCK];
+    sort_kernel::block_sort(
+        inp,
+        out,
+        size_sorted_axis,
+        in_stride_sorted_axis,
+        out_stride_sorted_axis,
+        in_stride_segment_axis,
+        out_stride_segment_axis,
+        tgp_vals,
+        nullptr);
+  }
+}
+template <
+    typename T,
+    typename U,
+    bool ARG_SORT,
+    int BLOCK_THREADS,
+    int N_PER_THREAD>
+__global__ void block_sort_nc_kernel(
+    const T* inp,
+    U* out,
+    int size_sorted_axis,
+    int64_t in_stride_sorted_axis,
+    int64_t out_stride_sorted_axis,
+    const __grid_constant__ Shape nc_shape,
+    const __grid_constant__ Strides in_nc_strides,
+    const __grid_constant__ Strides out_nc_strides,
+    int nc_dim) {
+  using sort_kernel =
+      KernelMergeSort<T, U, ARG_SORT, BLOCK_THREADS, N_PER_THREAD>;
+  using ValT = typename sort_kernel::ValT;
+  using IdxT = typename sort_kernel::IdxT;
+  int64_t in_block_idx = elem_to_loc(
+      int64_t(blockIdx.y), nc_shape.data(), in_nc_strides.data(), nc_dim);
+  int64_t out_block_idx = elem_to_loc(
+      int64_t(blockIdx.y), nc_shape.data(), out_nc_strides.data(), nc_dim);
+  inp += in_block_idx;
+  out += out_block_idx;
+  if constexpr (ARG_SORT) {
+    __shared__ ValT tgp_vals[sort_kernel::N_PER_BLOCK];
+    __shared__ IdxT tgp_idxs[sort_kernel::N_PER_BLOCK];
+    sort_kernel::block_sort(
+        inp,
+        out,
+        size_sorted_axis,
+        in_stride_sorted_axis,
+        out_stride_sorted_axis,
+        0,
+        0,
+        tgp_vals,
+        tgp_idxs);
+  } else {
+    __shared__ ValT tgp_vals[sort_kernel::N_PER_BLOCK];
+    sort_kernel::block_sort(
+        inp,
+        out,
+        size_sorted_axis,
+        in_stride_sorted_axis,
+        out_stride_sorted_axis,
+        0,
+        0,
+        tgp_vals,
+        nullptr);
+  }
+}
+template <
+    typename ValT,
+    typename IdxT,
+    bool ARG_SORT,
+    int BLOCK_THREADS,
+    int N_PER_THREAD,
+    typename CompareOp = LessThan<ValT>>
+struct KernelMultiBlockMergeSort {
+  using block_merge_sort_t = BlockMergeSort<
+      ValT,
+      IdxT,
+      ARG_SORT,
+      BLOCK_THREADS,
+      N_PER_THREAD,
+      CompareOp>;
+  static constexpr int N_PER_BLOCK = BLOCK_THREADS * N_PER_THREAD;
+  __device__ __forceinline__ static void block_sort(
+      const ValT* inp,
+      ValT* out_vals,
+      IdxT* out_idxs,
+      int size_sorted_axis,
+      int64_t stride_sorted_axis,
+      ValT* tgp_vals,
+      IdxT* tgp_idxs) {
+    int base_idx = blockIdx.x * N_PER_BLOCK;
+    for (int i = threadIdx.x; i < N_PER_BLOCK; i += BLOCK_THREADS) {
+      int idx = base_idx + i;
+      tgp_vals[i] = idx < size_sorted_axis ? inp[idx * stride_sorted_axis]
+                                           : ValT(CompareOp::init());
+      tgp_idxs[i] = idx;
+    }
+    __syncthreads();
+    block_merge_sort_t::sort(tgp_vals, tgp_idxs, size_sorted_axis);
+    __syncthreads();
+    for (int i = threadIdx.x; i < N_PER_BLOCK; i += BLOCK_THREADS) {
+      int idx = base_idx + i;
+      if (idx < size_sorted_axis) {
+        out_vals[idx] = tgp_vals[i];
+        out_idxs[idx] = tgp_idxs[i];
+      }
+    }
+  }
+  __device__ __forceinline__ static int merge_partition(
+      const ValT* As,
+      const ValT* Bs,
+      int A_sz,
+      int B_sz,
+      int sort_md) {
+    CompareOp op;
+    int A_st = max(0, sort_md - B_sz);
+    int A_ed = min(sort_md, A_sz);
+    while (A_st < A_ed) {
+      int md = A_st + (A_ed - A_st) / 2;
+      auto a = As[md];
+      auto b = Bs[sort_md - 1 - md];
+      if (op(b, a)) {
+        A_ed = md;
+      } else {
+        A_st = md + 1;
+      }
+    }
+    return A_ed;
+  }
+};
+template <
+    typename ValT,
+    typename IdxT,
+    bool ARG_SORT,
+    int BLOCK_THREADS,
+    int N_PER_THREAD>
+__global__ void mb_block_sort_kernel(
+    const ValT* inp,
+    ValT* out_vals,
+    IdxT* out_idxs,
+    int size_sorted_axis,
+    int64_t stride_sorted_axis,
+    const __grid_constant__ Shape nc_shape,
+    const __grid_constant__ Strides nc_strides,
+    int nc_dim) {
+  using sort_kernel = KernelMultiBlockMergeSort<
+      ValT,
+      IdxT,
+      ARG_SORT,
+      BLOCK_THREADS,
+      N_PER_THREAD>;
+  int64_t block_idx = elem_to_loc(
+      int64_t(blockIdx.y), nc_shape.data(), nc_strides.data(), nc_dim);
+  inp += block_idx;
+  out_vals += blockIdx.y * size_sorted_axis;
+  out_idxs += blockIdx.y * size_sorted_axis;
+  __shared__ ValT tgp_vals[sort_kernel::N_PER_BLOCK];
+  __shared__ IdxT tgp_idxs[sort_kernel::N_PER_BLOCK];
+  sort_kernel::block_sort(
+      inp,
+      out_vals,
+      out_idxs,
+      size_sorted_axis,
+      stride_sorted_axis,
+      tgp_vals,
+      tgp_idxs);
+}
+template <
+    typename ValT,
+    typename IdxT,
+    bool ARG_SORT,
+    int BLOCK_THREADS,
+    int N_PER_THREAD>
+__global__ void mb_block_partition_kernel(
+    IdxT* block_partitions,
+    const ValT* dev_vals,
+    const IdxT* dev_idxs,
+    int size_sorted_axis,
+    int merge_tiles,
+    int n_blocks) {
+  using sort_kernel = KernelMultiBlockMergeSort<
+      ValT,
+      IdxT,
+      ARG_SORT,
+      BLOCK_THREADS,
+      N_PER_THREAD>;
+  (void)dev_idxs;
+  block_partitions += blockIdx.y * blockDim.x;
+  dev_vals += blockIdx.y * size_sorted_axis;
+  dev_idxs += blockIdx.y * size_sorted_axis;
+  for (int i = threadIdx.x; i <= n_blocks; i += blockDim.x) {
+    int merge_group = i / merge_tiles;
+    int merge_lane = i % merge_tiles;
+    int sort_sz = sort_kernel::N_PER_BLOCK * merge_tiles;
+    int sort_st = sort_kernel::N_PER_BLOCK * merge_tiles * merge_group;
+    int A_st = min(size_sorted_axis, sort_st);
+    int A_ed = min(size_sorted_axis, sort_st + sort_sz / 2);
+    int B_st = A_ed;
+    int B_ed = min(size_sorted_axis, B_st + sort_sz / 2);
+    int partition_at = min(B_ed - A_st, sort_kernel::N_PER_BLOCK * merge_lane);
+    int partition = sort_kernel::merge_partition(
+        dev_vals + A_st,
+        dev_vals + B_st,
+        A_ed - A_st,
+        B_ed - B_st,
+        partition_at);
+    block_partitions[i] = A_st + partition;
+  }
+}
+template <
+    typename ValT,
+    typename IdxT,
+    bool ARG_SORT,
+    int BLOCK_THREADS,
+    int N_PER_THREAD,
+    typename CompareOp = LessThan<ValT>>
+__global__ void mb_block_merge_kernel(
+    const IdxT* block_partitions,
+    const ValT* dev_vals_in,
+    const IdxT* dev_idxs_in,
+    ValT* dev_vals_out,
+    IdxT* dev_idxs_out,
+    int size_sorted_axis,
+    int merge_tiles,
+    int num_tiles) {
+  using sort_kernel = KernelMultiBlockMergeSort<
+      ValT,
+      IdxT,
+      ARG_SORT,
+      BLOCK_THREADS,
+      N_PER_THREAD,
+      CompareOp>;
+  using block_sort_t = typename sort_kernel::block_merge_sort_t;
+  block_partitions += blockIdx.y * (num_tiles + 1);
+  dev_vals_in += blockIdx.y * size_sorted_axis;
+  dev_idxs_in += blockIdx.y * size_sorted_axis;
+  dev_vals_out += blockIdx.y * size_sorted_axis;
+  dev_idxs_out += blockIdx.y * size_sorted_axis;
+  int block_idx = blockIdx.x;
+  int merge_group = block_idx / merge_tiles;
+  int sort_st = sort_kernel::N_PER_BLOCK * merge_tiles * merge_group;
+  int sort_sz = sort_kernel::N_PER_BLOCK * merge_tiles;
+  int sort_md = sort_kernel::N_PER_BLOCK * block_idx - sort_st;
+  int A_st = block_partitions[block_idx + 0];
+  int A_ed = block_partitions[block_idx + 1];
+  int B_st = min(size_sorted_axis, 2 * sort_st + sort_sz / 2 + sort_md - A_st);
+  int B_ed = min(
+      size_sorted_axis,
+      2 * sort_st + sort_sz / 2 + sort_md + sort_kernel::N_PER_BLOCK - A_ed);
+  if ((block_idx % merge_tiles) == merge_tiles - 1) {
+    A_ed = min(size_sorted_axis, sort_st + sort_sz / 2);
+    B_ed = min(size_sorted_axis, sort_st + sort_sz);
+  }
+  int A_sz = A_ed - A_st;
+  int B_sz = B_ed - B_st;
+  ValT thread_vals[N_PER_THREAD];
+  IdxT thread_idxs[N_PER_THREAD];
+#pragma unroll
+  for (int i = 0; i < N_PER_THREAD; i++) {
+    int idx = BLOCK_THREADS * i + threadIdx.x;
+    if (idx < (A_sz + B_sz)) {
+      thread_vals[i] = (idx < A_sz) ? dev_vals_in[A_st + idx]
+                                    : dev_vals_in[B_st + idx - A_sz];
+      thread_idxs[i] = (idx < A_sz) ? dev_idxs_in[A_st + idx]
+                                    : dev_idxs_in[B_st + idx - A_sz];
+    } else {
+      thread_vals[i] = CompareOp::init();
+      thread_idxs[i] = 0;
+    }
+  }
+  __shared__ ValT tgp_vals[sort_kernel::N_PER_BLOCK];
+  __shared__ IdxT tgp_idxs[sort_kernel::N_PER_BLOCK];
+  __syncthreads();
+#pragma unroll
+  for (int i = 0; i < N_PER_THREAD; i++) {
+    int idx = BLOCK_THREADS * i + threadIdx.x;
+    tgp_vals[idx] = thread_vals[i];
+    tgp_idxs[idx] = thread_idxs[i];
+  }
+  __syncthreads();
+  int sort_md_local = min(A_sz + B_sz, N_PER_THREAD * int(threadIdx.x));
+  int A_st_local = block_sort_t::merge_partition(
+      tgp_vals, tgp_vals + A_sz, A_sz, B_sz, sort_md_local);
+  int A_ed_local = A_sz;
+  int B_st_local = sort_md_local - A_st_local;
+  int B_ed_local = B_sz;
+  int A_sz_local = A_ed_local - A_st_local;
+  int B_sz_local = B_ed_local - B_st_local;
+  block_sort_t::merge_step(
+      tgp_vals + A_st_local,
+      tgp_vals + A_ed_local + B_st_local,
+      tgp_idxs + A_st_local,
+      tgp_idxs + A_ed_local + B_st_local,
+      A_sz_local,
+      B_sz_local,
+      thread_vals,
+      thread_idxs);
+  __syncthreads();
+#pragma unroll
+  for (int i = 0; i < N_PER_THREAD; ++i) {
+    int idx = threadIdx.x * N_PER_THREAD;
+    tgp_vals[idx + i] = thread_vals[i];
+    tgp_idxs[idx + i] = thread_idxs[i];
+  }
+  __syncthreads();
+  int base_idx = blockIdx.x * sort_kernel::N_PER_BLOCK;
+  for (int i = threadIdx.x; i < sort_kernel::N_PER_BLOCK; i += BLOCK_THREADS) {
+    int idx = base_idx + i;
+    if (idx < size_sorted_axis) {
+      dev_vals_out[idx] = tgp_vals[i];
+      dev_idxs_out[idx] = tgp_idxs[i];
+    }
+  }
+}
+} // namespace cu
+namespace {
+void single_block_sort(
+    const Stream& s,
+    const array& in,
+    array& out,
+    int axis,
+    int bn,
+    bool argsort) {
+  int n_rows = in.size() / in.shape(axis);
+  auto in_nc_str = in.strides();
+  in_nc_str.erase(in_nc_str.begin() + axis);
+  auto out_nc_str = out.strides();
+  out_nc_str.erase(out_nc_str.begin() + axis);
+  auto nc_shape = in.shape();
+  nc_shape.erase(nc_shape.begin() + axis);
+  int nc_dim = nc_shape.size();
+  int size_sorted_axis = in.shape(axis);
+  int64_t in_stride_sorted_axis = in.strides()[axis];
+  int64_t out_stride_sorted_axis = out.strides()[axis];
+  bool contiguous = in.flags().contiguous;
+  auto check_strides = [](const array& x, int64_t sort_stride) {
+    int64_t min_stride =
+        *std::min_element(x.strides().begin(), x.strides().end());
+    int64_t max_stride =
+        *std::max_element(x.strides().begin(), x.strides().end());
+    return sort_stride == min_stride || sort_stride == max_stride;
+  };
+  contiguous &= check_strides(in, in_stride_sorted_axis);
+  contiguous &= check_strides(out, out_stride_sorted_axis);
+  auto& encoder = cu::get_command_encoder(s);
+  out.set_data(cu::malloc_async(out.nbytes(), encoder));
+  encoder.set_input_array(in);
+  encoder.set_output_array(out);
+  dispatch_all_types(in.dtype(), [&](auto type_tag) {
+    using CTYPE = MLX_GET_TYPE(type_tag);
+    if constexpr (!std::is_same_v<CTYPE, complex64_t>) {
+      using ValT = cuda_type_t<CTYPE>;
+      dispatch_block_dim(bn, [&](auto block_dim) {
+        constexpr int BLOCK_THREADS = block_dim();
+        if constexpr (BLOCK_THREADS < 1024) {
+          dim3 grid(1, n_rows, 1);
+          dim3 block(BLOCK_THREADS, 1, 1);
+          dispatch_bool(argsort, [&](auto arg_tag) {
+            constexpr bool ARG_SORT = decltype(arg_tag)::value;
+            using OutT = std::conditional_t<ARG_SORT, uint32_t, ValT>;
+            if (contiguous) {
+              auto kernel = cu::block_sort_kernel<
+                  ValT,
+                  OutT,
+                  ARG_SORT,
+                  BLOCK_THREADS,
+                  N_PER_THREAD>;
+              int64_t in_stride_segment_axis = INT64_MAX;
+              int64_t out_stride_segment_axis = INT64_MAX;
+              for (int i = 0; i < nc_shape.size(); i++) {
+                if (nc_shape[i] == 1) {
+                  continue;
+                }
+                if (in_nc_str[i] > INT32_MAX || out_nc_str[i] > INT32_MAX) {
+                  throw std::runtime_error(
+                      "[Sort::eval_gpu] Stride too large.");
+                }
+                in_stride_segment_axis =
+                    std::min(in_stride_segment_axis, in_nc_str[i]);
+                out_stride_segment_axis =
+                    std::min(out_stride_segment_axis, out_nc_str[i]);
+              }
+              encoder.add_kernel_node(
+                  kernel,
+                  grid,
+                  block,
+                  0,
+                  gpu_ptr<ValT>(in),
+                  gpu_ptr<OutT>(out),
+                  size_sorted_axis,
+                  in_stride_sorted_axis,
+                  out_stride_sorted_axis,
+                  in_stride_segment_axis,
+                  out_stride_segment_axis);
+            } else {
+              auto kernel = cu::block_sort_nc_kernel<
+                  ValT,
+                  OutT,
+                  ARG_SORT,
+                  BLOCK_THREADS,
+                  N_PER_THREAD>;
+              auto nc_shape_param = const_param(nc_shape);
+              auto in_nc_strides_param = const_param(in_nc_str);
+              auto out_nc_strides_param = const_param(out_nc_str);
+              encoder.add_kernel_node(
+                  kernel,
+                  grid,
+                  block,
+                  0,
+                  gpu_ptr<ValT>(in),
+                  gpu_ptr<OutT>(out),
+                  size_sorted_axis,
+                  in_stride_sorted_axis,
+                  out_stride_sorted_axis,
+                  nc_shape_param,
+                  in_nc_strides_param,
+                  out_nc_strides_param,
+                  nc_dim);
+            }
+          });
+        }
+      });
+    } else {
+      throw std::runtime_error(
+          "CUDA backend does not support sorting complex numbers");
+    }
+  });
+}
+void multi_block_sort(
+    const Stream& s,
+    const array& in,
+    array& out,
+    int axis,
+    int n_blocks,
+    bool argsort) {
+  int n_rows = in.size() / in.shape(axis);
+  auto nc_str = in.strides();
+  nc_str.erase(nc_str.begin() + axis);
+  auto nc_shape = in.shape();
+  nc_shape.erase(nc_shape.begin() + axis);
+  int nc_dim = nc_shape.size();
+  if (nc_dim == 0) {
+    nc_shape = {0};
+    nc_str = {1};
+  }
+  int size_sorted_axis = in.shape(axis);
+  int64_t stride_sorted_axis = in.strides()[axis];
+  array dev_vals_in({n_rows, size_sorted_axis}, in.dtype(), nullptr, {});
+  array dev_vals_out({n_rows, size_sorted_axis}, in.dtype(), nullptr, {});
+  array dev_idxs_in({n_rows, size_sorted_axis}, uint32, nullptr, {});
+  array dev_idxs_out({n_rows, size_sorted_axis}, uint32, nullptr, {});
+  array block_partitions({n_rows, n_blocks + 1}, uint32, nullptr, {});
+  auto& encoder = cu::get_command_encoder(s);
+  dev_vals_in.set_data(cu::malloc_async(dev_vals_in.nbytes(), encoder));
+  dev_vals_out.set_data(cu::malloc_async(dev_vals_out.nbytes(), encoder));
+  dev_idxs_in.set_data(cu::malloc_async(dev_idxs_in.nbytes(), encoder));
+  dev_idxs_out.set_data(cu::malloc_async(dev_idxs_out.nbytes(), encoder));
+  block_partitions.set_data(
+      cu::malloc_async(block_partitions.nbytes(), encoder));
+  encoder.add_temporary(block_partitions);
+  dispatch_all_types(in.dtype(), [&](auto type_tag) {
+    using CTYPE = MLX_GET_TYPE(type_tag);
+    if constexpr (!std::is_same_v<CTYPE, complex64_t>) {
+      using ValT = cuda_type_t<CTYPE>;
+      using IdxT = uint32_t;
+      constexpr int BLOCK_THREADS = sizeof(ValT) == 8 ? 256 : 512;
+      dim3 grid(n_blocks, n_rows, 1);
+      dim3 block(BLOCK_THREADS, 1, 1);
+      dispatch_bool(argsort, [&](auto arg_tag) {
+        constexpr bool ARG_SORT = decltype(arg_tag)::value;
+        auto nc_shape_param = const_param(nc_shape);
+        auto nc_strides_param = const_param(nc_str);
+        auto block_sort_kernel = cu::mb_block_sort_kernel<
+            ValT,
+            IdxT,
+            ARG_SORT,
+            BLOCK_THREADS,
+            N_PER_THREAD>;
+        encoder.set_input_array(in);
+        encoder.set_output_array(dev_vals_in);
+        encoder.set_output_array(dev_idxs_in);
+        encoder.add_kernel_node(
+            block_sort_kernel,
+            grid,
+            block,
+            0,
+            gpu_ptr<ValT>(in),
+            gpu_ptr<ValT>(dev_vals_in),
+            gpu_ptr<IdxT>(dev_idxs_in),
+            size_sorted_axis,
+            stride_sorted_axis,
+            nc_shape_param,
+            nc_strides_param,
+            nc_dim);
+        int n_thr_per_group = (n_blocks + 1) < 1024 ? (n_blocks + 1) : 1024;
+        for (int merge_tiles = 2; (merge_tiles / 2) < n_blocks;
+             merge_tiles *= 2) {
+          auto partition_kernel = cu::mb_block_partition_kernel<
+              ValT,
+              IdxT,
+              ARG_SORT,
+              BLOCK_THREADS,
+              N_PER_THREAD>;
+          encoder.set_input_array(dev_vals_in);
+          encoder.set_input_array(dev_idxs_in);
+          encoder.set_output_array(block_partitions);
+          encoder.add_kernel_node(
+              partition_kernel,
+              dim3(1, n_rows, 1),
+              dim3(n_thr_per_group, 1, 1),
+              0,
+              gpu_ptr<IdxT>(block_partitions),
+              gpu_ptr<ValT>(dev_vals_in),
+              gpu_ptr<IdxT>(dev_idxs_in),
+              size_sorted_axis,
+              merge_tiles,
+              n_blocks);
+          auto merge_kernel = cu::mb_block_merge_kernel<
+              ValT,
+              IdxT,
+              ARG_SORT,
+              BLOCK_THREADS,
+              N_PER_THREAD>;
+          encoder.set_input_array(dev_vals_in);
+          encoder.set_input_array(dev_idxs_in);
+          encoder.set_input_array(block_partitions);
+          encoder.set_output_array(dev_vals_out);
+          encoder.set_output_array(dev_idxs_out);
+          encoder.add_kernel_node(
+              merge_kernel,
+              dim3(n_blocks, n_rows, 1),
+              dim3(BLOCK_THREADS, 1, 1),
+              0,
+              gpu_ptr<IdxT>(block_partitions),
+              gpu_ptr<ValT>(dev_vals_in),
+              gpu_ptr<IdxT>(dev_idxs_in),
+              gpu_ptr<ValT>(dev_vals_out),
+              gpu_ptr<IdxT>(dev_idxs_out),
+              size_sorted_axis,
+              merge_tiles,
+              n_blocks);
+          std::swap(dev_vals_in, dev_vals_out);
+          std::swap(dev_idxs_in, dev_idxs_out);
+        }
+      });
+    } else {
+      throw std::runtime_error(
+          "CUDA backend does not support sorting complex numbers");
+    }
+  });
+  encoder.add_temporary(dev_vals_out);
+  encoder.add_temporary(dev_idxs_out);
+  encoder.add_temporary(argsort ? dev_vals_in : dev_idxs_in);
+  if (axis == in.ndim() - 1) {
+    // Copy buffer to out, no need for temporary
+    out.copy_shared_buffer(
+        argsort ? dev_idxs_in : dev_vals_in,
+        out.strides(),
+        out.flags(),
+        out.size());
+  } else {
+    encoder.add_temporary(argsort ? dev_idxs_in : dev_vals_in);
+    out.set_data(cu::malloc_async(out.nbytes(), encoder));
+    auto strides = out.strides();
+    for (int ax = axis + 1; ax < strides.size(); ax++) {
+      strides[ax] *= out.shape(axis);
+    }
+    strides[axis] = 1;
+    copy_gpu_inplace(
+        (argsort) ? dev_idxs_in : dev_vals_in,
+        out,
+        out.shape(),
+        strides,
+        out.strides(),
+        0,
+        0,
+        CopyType::General,
+        s);
+  }
+}
+void gpu_merge_sort(
+    const Stream& s,
+    const array& in,
+    array& out,
+    int axis_,
+    bool argsort) {
+  int axis = axis_ < 0 ? axis_ + in.ndim() : axis_;
+  int size_sorted_axis = in.shape(axis);
+  constexpr int tn = N_PER_THREAD;
+  int potential_bn = (size_sorted_axis + tn - 1) / tn;
+  int bn;
+  if (potential_bn > 256) {
+    bn = 512;
+  } else if (potential_bn > 128) {
+    bn = 256;
+  } else if (potential_bn > 64) {
+    bn = 128;
+  } else if (potential_bn > 32) {
+    bn = 64;
+  } else {
+    bn = 32;
+  }
+  if (bn == 512 && size_of(in.dtype()) > 4) {
+    bn = 256;
+  }
+  int n_per_block = bn * tn;
+  int n_blocks = (size_sorted_axis + n_per_block - 1) / n_per_block;
+  if (n_blocks > 1) {
+    return multi_block_sort(s, in, out, axis, n_blocks, argsort);
+  }
+  return single_block_sort(s, in, out, axis, bn, argsort);
+}
+void gpu_sort(
+    const Stream& s,
+    const array& in,
+    array& out,
+    int axis,
+    bool argsort) {
+  auto& encoder = cu::get_command_encoder(s);
+  gpu_merge_sort(s, in, out, axis, argsort);
+}
+} // namespace
+void ArgSort::eval_gpu(const std::vector<array>& inputs, array& out) {
+  nvtx3::scoped_range r("ArgSort::eval_gpu");
+  assert(inputs.size() == 1);
+  gpu_sort(stream(), inputs[0], out, axis_, true);
+}
+void Sort::eval_gpu(const std::vector<array>& inputs, array& out) {
+  nvtx3::scoped_range r("Sort::eval_gpu");
+  assert(inputs.size() == 1);
+  gpu_sort(stream(), inputs[0], out, axis_, false);
+}
+void ArgPartition::eval_gpu(const std::vector<array>& inputs, array& out) {
+  nvtx3::scoped_range r("ArgPartition::eval_gpu");
+  gpu_sort(stream(), inputs[0], out, axis_, true);
+}
+void Partition::eval_gpu(const std::vector<array>& inputs, array& out) {
+  nvtx3::scoped_range r("Partition::eval_gpu");
+  gpu_sort(stream(), inputs[0], out, axis_, false);
+}
+} // namespace mlx::core