RubyGems - mlx - Versions diffs - 0.30.7 - Mend

mlx 0.30.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (599) hide show

checksums.yaml +7 -0
data/ext/mlx/extconf.rb +94 -0
data/ext/mlx/native.cpp +8027 -0
data/lib/mlx/core.rb +1678 -0
data/lib/mlx/distributed_utils/common.rb +116 -0
data/lib/mlx/distributed_utils/config.rb +600 -0
data/lib/mlx/distributed_utils/launch.rb +490 -0
data/lib/mlx/extension.rb +24 -0
data/lib/mlx/nn/base.rb +388 -0
data/lib/mlx/nn/init.rb +140 -0
data/lib/mlx/nn/layers/activations.rb +336 -0
data/lib/mlx/nn/layers/base.rb +6 -0
data/lib/mlx/nn/layers/containers.rb +20 -0
data/lib/mlx/nn/layers/convolution.rb +120 -0
data/lib/mlx/nn/layers/convolution_transpose.rb +114 -0
data/lib/mlx/nn/layers/distributed.rb +309 -0
data/lib/mlx/nn/layers/dropout.rb +75 -0
data/lib/mlx/nn/layers/embedding.rb +28 -0
data/lib/mlx/nn/layers/linear.rb +79 -0
data/lib/mlx/nn/layers/normalization.rb +216 -0
data/lib/mlx/nn/layers/pooling.rb +167 -0
data/lib/mlx/nn/layers/positional_encoding.rb +126 -0
data/lib/mlx/nn/layers/quantized.rb +215 -0
data/lib/mlx/nn/layers/recurrent.rb +135 -0
data/lib/mlx/nn/layers/transformer.rb +330 -0
data/lib/mlx/nn/layers/upsample.rb +97 -0
data/lib/mlx/nn/layers.rb +18 -0
data/lib/mlx/nn/losses.rb +251 -0
data/lib/mlx/nn/utils.rb +167 -0
data/lib/mlx/nn.rb +12 -0
data/lib/mlx/optimizers/optimizers.rb +808 -0
data/lib/mlx/optimizers/schedulers.rb +62 -0
data/lib/mlx/optimizers.rb +9 -0
data/lib/mlx/utils.rb +171 -0
data/lib/mlx/version.rb +5 -0
data/lib/mlx.rb +64 -0
data/mlx/CMakeLists.txt +449 -0
data/mlx/cmake/FindCUDNN.cmake +177 -0
data/mlx/cmake/FindNCCL.cmake +54 -0
data/mlx/cmake/Findnvpl.cmake +3 -0
data/mlx/cmake/extension.cmake +50 -0
data/mlx/mlx/3rdparty/.clang-format +2 -0
data/mlx/mlx/3rdparty/pocketfft.h +3581 -0
data/mlx/mlx/CMakeLists.txt +107 -0
data/mlx/mlx/allocator.h +75 -0
data/mlx/mlx/api.h +29 -0
data/mlx/mlx/array.cpp +354 -0
data/mlx/mlx/array.h +647 -0
data/mlx/mlx/backend/common/CMakeLists.txt +9 -0
data/mlx/mlx/backend/common/binary.h +97 -0
data/mlx/mlx/backend/common/broadcasting.cpp +24 -0
data/mlx/mlx/backend/common/broadcasting.h +11 -0
data/mlx/mlx/backend/common/buffer_cache.h +158 -0
data/mlx/mlx/backend/common/common.cpp +305 -0
data/mlx/mlx/backend/common/compiled.cpp +243 -0
data/mlx/mlx/backend/common/compiled.h +77 -0
data/mlx/mlx/backend/common/copy.h +50 -0
data/mlx/mlx/backend/common/hadamard.h +109 -0
data/mlx/mlx/backend/common/load.cpp +57 -0
data/mlx/mlx/backend/common/matmul.h +67 -0
data/mlx/mlx/backend/common/reduce.cpp +154 -0
data/mlx/mlx/backend/common/reduce.h +59 -0
data/mlx/mlx/backend/common/slicing.cpp +71 -0
data/mlx/mlx/backend/common/slicing.h +20 -0
data/mlx/mlx/backend/common/ternary.h +85 -0
data/mlx/mlx/backend/common/unary.h +29 -0
data/mlx/mlx/backend/common/utils.cpp +231 -0
data/mlx/mlx/backend/common/utils.h +205 -0
data/mlx/mlx/backend/cpu/CMakeLists.txt +88 -0
data/mlx/mlx/backend/cpu/arange.h +28 -0
data/mlx/mlx/backend/cpu/arg_reduce.cpp +124 -0
data/mlx/mlx/backend/cpu/binary.cpp +269 -0
data/mlx/mlx/backend/cpu/binary.h +517 -0
data/mlx/mlx/backend/cpu/binary_ops.h +98 -0
data/mlx/mlx/backend/cpu/binary_two.h +166 -0
data/mlx/mlx/backend/cpu/cholesky.cpp +85 -0
data/mlx/mlx/backend/cpu/compiled.cpp +357 -0
data/mlx/mlx/backend/cpu/compiled_preamble.h +12 -0
data/mlx/mlx/backend/cpu/conv.cpp +1351 -0
data/mlx/mlx/backend/cpu/copy.cpp +386 -0
data/mlx/mlx/backend/cpu/copy.h +36 -0
data/mlx/mlx/backend/cpu/device_info.cpp +113 -0
data/mlx/mlx/backend/cpu/device_info.h +28 -0
data/mlx/mlx/backend/cpu/distributed.cpp +103 -0
data/mlx/mlx/backend/cpu/eig.cpp +281 -0
data/mlx/mlx/backend/cpu/eigh.cpp +241 -0
data/mlx/mlx/backend/cpu/encoder.cpp +16 -0
data/mlx/mlx/backend/cpu/encoder.h +67 -0
data/mlx/mlx/backend/cpu/eval.cpp +40 -0
data/mlx/mlx/backend/cpu/eval.h +12 -0
data/mlx/mlx/backend/cpu/fft.cpp +120 -0
data/mlx/mlx/backend/cpu/gemm.h +26 -0
data/mlx/mlx/backend/cpu/gemms/bnns.cpp +214 -0
data/mlx/mlx/backend/cpu/gemms/cblas.cpp +134 -0
data/mlx/mlx/backend/cpu/gemms/simd_bf16.cpp +45 -0
data/mlx/mlx/backend/cpu/gemms/simd_fp16.cpp +45 -0
data/mlx/mlx/backend/cpu/gemms/simd_gemm.h +139 -0
data/mlx/mlx/backend/cpu/hadamard.cpp +121 -0
data/mlx/mlx/backend/cpu/indexing.cpp +854 -0
data/mlx/mlx/backend/cpu/inverse.cpp +160 -0
data/mlx/mlx/backend/cpu/jit_compiler.cpp +166 -0
data/mlx/mlx/backend/cpu/jit_compiler.h +20 -0
data/mlx/mlx/backend/cpu/lapack.h +80 -0
data/mlx/mlx/backend/cpu/logsumexp.cpp +139 -0
data/mlx/mlx/backend/cpu/luf.cpp +120 -0
data/mlx/mlx/backend/cpu/make_compiled_preamble.ps1 +38 -0
data/mlx/mlx/backend/cpu/make_compiled_preamble.sh +41 -0
data/mlx/mlx/backend/cpu/masked_mm.cpp +608 -0
data/mlx/mlx/backend/cpu/matmul.cpp +166 -0
data/mlx/mlx/backend/cpu/primitives.cpp +478 -0
data/mlx/mlx/backend/cpu/qrf.cpp +147 -0
data/mlx/mlx/backend/cpu/quantized.cpp +1370 -0
data/mlx/mlx/backend/cpu/reduce.cpp +587 -0
data/mlx/mlx/backend/cpu/scan.cpp +338 -0
data/mlx/mlx/backend/cpu/select.cpp +95 -0
data/mlx/mlx/backend/cpu/simd/accelerate_fp16_simd.h +56 -0
data/mlx/mlx/backend/cpu/simd/accelerate_simd.h +329 -0
data/mlx/mlx/backend/cpu/simd/base_simd.h +319 -0
data/mlx/mlx/backend/cpu/simd/math.h +193 -0
data/mlx/mlx/backend/cpu/simd/neon_fp16_simd.h +212 -0
data/mlx/mlx/backend/cpu/simd/simd.h +4 -0
data/mlx/mlx/backend/cpu/simd/type.h +11 -0
data/mlx/mlx/backend/cpu/slicing.h +21 -0
data/mlx/mlx/backend/cpu/softmax.cpp +170 -0
data/mlx/mlx/backend/cpu/sort.cpp +481 -0
data/mlx/mlx/backend/cpu/svd.cpp +289 -0
data/mlx/mlx/backend/cpu/ternary.h +154 -0
data/mlx/mlx/backend/cpu/threefry.cpp +31 -0
data/mlx/mlx/backend/cpu/threefry.h +21 -0
data/mlx/mlx/backend/cpu/unary.cpp +238 -0
data/mlx/mlx/backend/cpu/unary.h +281 -0
data/mlx/mlx/backend/cpu/unary_ops.h +175 -0
data/mlx/mlx/backend/cuda/CMakeLists.txt +265 -0
data/mlx/mlx/backend/cuda/allocator.cpp +451 -0
data/mlx/mlx/backend/cuda/allocator.h +94 -0
data/mlx/mlx/backend/cuda/arange.cu +68 -0
data/mlx/mlx/backend/cuda/arg_reduce.cu +189 -0
data/mlx/mlx/backend/cuda/bin2h.cmake +150 -0
data/mlx/mlx/backend/cuda/binary/CMakeLists.txt +21 -0
data/mlx/mlx/backend/cuda/binary/add.cu +7 -0
data/mlx/mlx/backend/cuda/binary/arctan2.cu +7 -0
data/mlx/mlx/backend/cuda/binary/binary.cuh +383 -0
data/mlx/mlx/backend/cuda/binary/bitwise_binary.cu +27 -0
data/mlx/mlx/backend/cuda/binary/divide.cu +7 -0
data/mlx/mlx/backend/cuda/binary/equal.cu +15 -0
data/mlx/mlx/backend/cuda/binary/greater.cu +7 -0
data/mlx/mlx/backend/cuda/binary/greater_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/less.cu +7 -0
data/mlx/mlx/backend/cuda/binary/less_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/log_add_exp.cu +7 -0
data/mlx/mlx/backend/cuda/binary/logical_and.cu +7 -0
data/mlx/mlx/backend/cuda/binary/logical_or.cu +7 -0
data/mlx/mlx/backend/cuda/binary/maximum.cu +7 -0
data/mlx/mlx/backend/cuda/binary/minimum.cu +7 -0
data/mlx/mlx/backend/cuda/binary/multiply.cu +7 -0
data/mlx/mlx/backend/cuda/binary/not_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/power.cu +7 -0
data/mlx/mlx/backend/cuda/binary/remainder.cu +7 -0
data/mlx/mlx/backend/cuda/binary/subtract.cu +7 -0
data/mlx/mlx/backend/cuda/binary_two.cu +412 -0
data/mlx/mlx/backend/cuda/compiled.cpp +357 -0
data/mlx/mlx/backend/cuda/conv/conv.h +126 -0
data/mlx/mlx/backend/cuda/conv/gemm_conv.cu +217 -0
data/mlx/mlx/backend/cuda/conv/gemm_grouped_conv.cu +231 -0
data/mlx/mlx/backend/cuda/conv.cpp +403 -0
data/mlx/mlx/backend/cuda/copy/copy.cuh +55 -0
data/mlx/mlx/backend/cuda/copy/copy_contiguous.cu +88 -0
data/mlx/mlx/backend/cuda/copy/copy_general.cu +171 -0
data/mlx/mlx/backend/cuda/copy/copy_general_dynamic.cu +118 -0
data/mlx/mlx/backend/cuda/copy/copy_general_input.cu +229 -0
data/mlx/mlx/backend/cuda/copy.cu +132 -0
data/mlx/mlx/backend/cuda/cublas_utils.cpp +222 -0
data/mlx/mlx/backend/cuda/cublas_utils.h +95 -0
data/mlx/mlx/backend/cuda/cuda.h +21 -0
data/mlx/mlx/backend/cuda/cuda_utils.h +90 -0
data/mlx/mlx/backend/cuda/cudnn_utils.cpp +133 -0
data/mlx/mlx/backend/cuda/cudnn_utils.h +187 -0
data/mlx/mlx/backend/cuda/custom_kernel.cpp +379 -0
data/mlx/mlx/backend/cuda/cutlass_utils.cuh +46 -0
data/mlx/mlx/backend/cuda/delayload.cpp +80 -0
data/mlx/mlx/backend/cuda/device/atomic_ops.cuh +63 -0
data/mlx/mlx/backend/cuda/device/binary_ops.cuh +300 -0
data/mlx/mlx/backend/cuda/device/cast_op.cuh +118 -0
data/mlx/mlx/backend/cuda/device/complex.cuh +60 -0
data/mlx/mlx/backend/cuda/device/config.h +12 -0
data/mlx/mlx/backend/cuda/device/fp16_math.cuh +96 -0
data/mlx/mlx/backend/cuda/device/gather.cuh +53 -0
data/mlx/mlx/backend/cuda/device/gather_axis.cuh +65 -0
data/mlx/mlx/backend/cuda/device/indexing.cuh +30 -0
data/mlx/mlx/backend/cuda/device/scatter.cuh +68 -0
data/mlx/mlx/backend/cuda/device/scatter_axis.cuh +67 -0
data/mlx/mlx/backend/cuda/device/scatter_ops.cuh +44 -0
data/mlx/mlx/backend/cuda/device/ternary_ops.cuh +13 -0
data/mlx/mlx/backend/cuda/device/unary_ops.cuh +350 -0
data/mlx/mlx/backend/cuda/device/utils.cuh +464 -0
data/mlx/mlx/backend/cuda/device.cpp +522 -0
data/mlx/mlx/backend/cuda/device.h +195 -0
data/mlx/mlx/backend/cuda/device_info.cpp +232 -0
data/mlx/mlx/backend/cuda/distributed.cu +121 -0
data/mlx/mlx/backend/cuda/eval.cpp +66 -0
data/mlx/mlx/backend/cuda/event.cu +415 -0
data/mlx/mlx/backend/cuda/event.h +79 -0
data/mlx/mlx/backend/cuda/fence.cpp +42 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm.cpp +233 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm.h +114 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm_batched_12_0.cpp +77 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm_batched_12_9.cu +329 -0
data/mlx/mlx/backend/cuda/gemms/gemv.cu +327 -0
data/mlx/mlx/backend/cuda/gemms/gemv.h +34 -0
data/mlx/mlx/backend/cuda/gemms/grouped_gemm.h +25 -0
data/mlx/mlx/backend/cuda/gemms/grouped_gemm_unaligned.cu +358 -0
data/mlx/mlx/backend/cuda/indexing.cpp +434 -0
data/mlx/mlx/backend/cuda/jit_module.cpp +443 -0
data/mlx/mlx/backend/cuda/jit_module.h +120 -0
data/mlx/mlx/backend/cuda/kernel_utils.cu +52 -0
data/mlx/mlx/backend/cuda/kernel_utils.cuh +148 -0
data/mlx/mlx/backend/cuda/layer_norm.cu +417 -0
data/mlx/mlx/backend/cuda/load.cpp +60 -0
data/mlx/mlx/backend/cuda/logsumexp.cu +161 -0
data/mlx/mlx/backend/cuda/lru_cache.h +190 -0
data/mlx/mlx/backend/cuda/matmul.cpp +373 -0
data/mlx/mlx/backend/cuda/no_cuda.cpp +47 -0
data/mlx/mlx/backend/cuda/primitives.cpp +46 -0
data/mlx/mlx/backend/cuda/quantized/affine_quantize.cu +329 -0
data/mlx/mlx/backend/cuda/quantized/convert_fp8.cu +19 -0
data/mlx/mlx/backend/cuda/quantized/cublas_qqmm.cpp +206 -0
data/mlx/mlx/backend/cuda/quantized/cublas_qqmm.h +88 -0
data/mlx/mlx/backend/cuda/quantized/cuda_fp4.h +100 -0
data/mlx/mlx/backend/cuda/quantized/fp_quantize.cu +496 -0
data/mlx/mlx/backend/cuda/quantized/mxfp8_quantize.cuh +32 -0
data/mlx/mlx/backend/cuda/quantized/no_qqmm_impl.cpp +26 -0
data/mlx/mlx/backend/cuda/quantized/nvfp4_quantize.cuh +334 -0
data/mlx/mlx/backend/cuda/quantized/qmv.cu +304 -0
data/mlx/mlx/backend/cuda/quantized/qmv.h +21 -0
data/mlx/mlx/backend/cuda/quantized/qqmm.cpp +158 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_impl.cpp +50 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_impl.h +26 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_utils.cu +227 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_utils.h +30 -0
data/mlx/mlx/backend/cuda/quantized/quantized.cpp +85 -0
data/mlx/mlx/backend/cuda/quantized/quantized.h +53 -0
data/mlx/mlx/backend/cuda/quantized/quantized_utils.cuh +88 -0
data/mlx/mlx/backend/cuda/quantized/quantized_utils.h +50 -0
data/mlx/mlx/backend/cuda/random.cu +202 -0
data/mlx/mlx/backend/cuda/reduce/all_reduce.cu +159 -0
data/mlx/mlx/backend/cuda/reduce/col_reduce.cu +510 -0
data/mlx/mlx/backend/cuda/reduce/init_reduce.cu +50 -0
data/mlx/mlx/backend/cuda/reduce/reduce.cuh +71 -0
data/mlx/mlx/backend/cuda/reduce/reduce_ops.cuh +211 -0
data/mlx/mlx/backend/cuda/reduce/reduce_utils.cuh +145 -0
data/mlx/mlx/backend/cuda/reduce/row_reduce.cu +361 -0
data/mlx/mlx/backend/cuda/reduce.cu +73 -0
data/mlx/mlx/backend/cuda/rms_norm.cu +536 -0
data/mlx/mlx/backend/cuda/rope.cu +429 -0
data/mlx/mlx/backend/cuda/scaled_dot_product_attention.cpp +681 -0
data/mlx/mlx/backend/cuda/scaled_dot_product_attention.cu +796 -0
data/mlx/mlx/backend/cuda/scan.cu +468 -0
data/mlx/mlx/backend/cuda/slicing.cpp +111 -0
data/mlx/mlx/backend/cuda/softmax.cu +162 -0
data/mlx/mlx/backend/cuda/sort.cu +1076 -0
data/mlx/mlx/backend/cuda/steel/defines.cuh +9 -0
data/mlx/mlx/backend/cuda/steel/gemm.cuh +101 -0
data/mlx/mlx/backend/cuda/steel/mma.cuh +117 -0
data/mlx/mlx/backend/cuda/steel/tiles.cuh +450 -0
data/mlx/mlx/backend/cuda/steel/utils.cuh +89 -0
data/mlx/mlx/backend/cuda/ternary.cu +271 -0
data/mlx/mlx/backend/cuda/unary/CMakeLists.txt +34 -0
data/mlx/mlx/backend/cuda/unary/abs.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arccos.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arccosh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arcsin.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arcsinh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arctan.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arctanh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/bitwise_invert.cu +7 -0
data/mlx/mlx/backend/cuda/unary/ceil.cu +7 -0
data/mlx/mlx/backend/cuda/unary/conjugate.cu +7 -0
data/mlx/mlx/backend/cuda/unary/cos.cu +7 -0
data/mlx/mlx/backend/cuda/unary/cosh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/erf.cu +7 -0
data/mlx/mlx/backend/cuda/unary/erf_inv.cu +7 -0
data/mlx/mlx/backend/cuda/unary/exp.cu +7 -0
data/mlx/mlx/backend/cuda/unary/expm1.cu +7 -0
data/mlx/mlx/backend/cuda/unary/floor.cu +7 -0
data/mlx/mlx/backend/cuda/unary/imag.cu +7 -0
data/mlx/mlx/backend/cuda/unary/log.cu +21 -0
data/mlx/mlx/backend/cuda/unary/log1p.cu +7 -0
data/mlx/mlx/backend/cuda/unary/logical_not.cu +7 -0
data/mlx/mlx/backend/cuda/unary/negative.cu +7 -0
data/mlx/mlx/backend/cuda/unary/real.cu +7 -0
data/mlx/mlx/backend/cuda/unary/round.cu +18 -0
data/mlx/mlx/backend/cuda/unary/sigmoid.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sign.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sin.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sinh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sqrt.cu +15 -0
data/mlx/mlx/backend/cuda/unary/square.cu +7 -0
data/mlx/mlx/backend/cuda/unary/tan.cu +7 -0
data/mlx/mlx/backend/cuda/unary/tanh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/unary.cuh +224 -0
data/mlx/mlx/backend/cuda/utils.cpp +116 -0
data/mlx/mlx/backend/cuda/utils.h +49 -0
data/mlx/mlx/backend/cuda/vector_types.cuh +48 -0
data/mlx/mlx/backend/cuda/worker.cpp +79 -0
data/mlx/mlx/backend/cuda/worker.h +55 -0
data/mlx/mlx/backend/gpu/CMakeLists.txt +5 -0
data/mlx/mlx/backend/gpu/copy.cpp +89 -0
data/mlx/mlx/backend/gpu/copy.h +57 -0
data/mlx/mlx/backend/gpu/device_info.h +36 -0
data/mlx/mlx/backend/gpu/eval.h +18 -0
data/mlx/mlx/backend/gpu/primitives.cpp +307 -0
data/mlx/mlx/backend/gpu/slicing.cpp +44 -0
data/mlx/mlx/backend/gpu/slicing.h +36 -0
data/mlx/mlx/backend/metal/CMakeLists.txt +144 -0
data/mlx/mlx/backend/metal/allocator.cpp +279 -0
data/mlx/mlx/backend/metal/allocator.h +79 -0
data/mlx/mlx/backend/metal/binary.cpp +257 -0
data/mlx/mlx/backend/metal/binary.h +33 -0
data/mlx/mlx/backend/metal/compiled.cpp +471 -0
data/mlx/mlx/backend/metal/conv.cpp +1118 -0
data/mlx/mlx/backend/metal/copy.cpp +235 -0
data/mlx/mlx/backend/metal/custom_kernel.cpp +430 -0
data/mlx/mlx/backend/metal/device.cpp +816 -0
data/mlx/mlx/backend/metal/device.h +289 -0
data/mlx/mlx/backend/metal/device_info.cpp +58 -0
data/mlx/mlx/backend/metal/distributed.cpp +38 -0
data/mlx/mlx/backend/metal/eval.cpp +97 -0
data/mlx/mlx/backend/metal/event.cpp +62 -0
data/mlx/mlx/backend/metal/fence.cpp +162 -0
data/mlx/mlx/backend/metal/fft.cpp +807 -0
data/mlx/mlx/backend/metal/hadamard.cpp +198 -0
data/mlx/mlx/backend/metal/indexing.cpp +727 -0
data/mlx/mlx/backend/metal/jit/includes.h +58 -0
data/mlx/mlx/backend/metal/jit/indexing.h +76 -0
data/mlx/mlx/backend/metal/jit_kernels.cpp +1118 -0
data/mlx/mlx/backend/metal/kernels/CMakeLists.txt +193 -0
data/mlx/mlx/backend/metal/kernels/arange.h +9 -0
data/mlx/mlx/backend/metal/kernels/arange.metal +20 -0
data/mlx/mlx/backend/metal/kernels/arg_reduce.metal +182 -0
data/mlx/mlx/backend/metal/kernels/atomic.h +345 -0
data/mlx/mlx/backend/metal/kernels/bf16.h +16 -0
data/mlx/mlx/backend/metal/kernels/bf16_math.h +380 -0
data/mlx/mlx/backend/metal/kernels/binary.h +199 -0
data/mlx/mlx/backend/metal/kernels/binary.metal +109 -0
data/mlx/mlx/backend/metal/kernels/binary_ops.h +330 -0
data/mlx/mlx/backend/metal/kernels/binary_two.h +244 -0
data/mlx/mlx/backend/metal/kernels/binary_two.metal +54 -0
data/mlx/mlx/backend/metal/kernels/cexpf.h +134 -0
data/mlx/mlx/backend/metal/kernels/complex.h +173 -0
data/mlx/mlx/backend/metal/kernels/conv.metal +701 -0
data/mlx/mlx/backend/metal/kernels/copy.h +276 -0
data/mlx/mlx/backend/metal/kernels/copy.metal +75 -0
data/mlx/mlx/backend/metal/kernels/defines.h +24 -0
data/mlx/mlx/backend/metal/kernels/erf.h +69 -0
data/mlx/mlx/backend/metal/kernels/expm1f.h +90 -0
data/mlx/mlx/backend/metal/kernels/fence.metal +52 -0
data/mlx/mlx/backend/metal/kernels/fft/radix.h +328 -0
data/mlx/mlx/backend/metal/kernels/fft/readwrite.h +624 -0
data/mlx/mlx/backend/metal/kernels/fft.h +486 -0
data/mlx/mlx/backend/metal/kernels/fft.metal +67 -0
data/mlx/mlx/backend/metal/kernels/fp4.h +48 -0
data/mlx/mlx/backend/metal/kernels/fp8.h +80 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized.h +1850 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized.metal +153 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized_nax.h +1044 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized_nax.metal +79 -0
data/mlx/mlx/backend/metal/kernels/gemv.metal +868 -0
data/mlx/mlx/backend/metal/kernels/gemv_masked.h +827 -0
data/mlx/mlx/backend/metal/kernels/gemv_masked.metal +76 -0
data/mlx/mlx/backend/metal/kernels/hadamard.h +182 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather.h +51 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather_axis.h +44 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather_front.h +24 -0
data/mlx/mlx/backend/metal/kernels/indexing/indexing.h +23 -0
data/mlx/mlx/backend/metal/kernels/indexing/masked_scatter.h +41 -0
data/mlx/mlx/backend/metal/kernels/indexing/scatter.h +59 -0
data/mlx/mlx/backend/metal/kernels/indexing/scatter_axis.h +52 -0
data/mlx/mlx/backend/metal/kernels/layer_norm.metal +433 -0
data/mlx/mlx/backend/metal/kernels/logging.h +26 -0
data/mlx/mlx/backend/metal/kernels/logsumexp.h +140 -0
data/mlx/mlx/backend/metal/kernels/logsumexp.metal +18 -0
data/mlx/mlx/backend/metal/kernels/quantized.h +2508 -0
data/mlx/mlx/backend/metal/kernels/quantized.metal +144 -0
data/mlx/mlx/backend/metal/kernels/quantized_nax.h +1705 -0
data/mlx/mlx/backend/metal/kernels/quantized_nax.metal +106 -0
data/mlx/mlx/backend/metal/kernels/quantized_utils.h +90 -0
data/mlx/mlx/backend/metal/kernels/random.metal +103 -0
data/mlx/mlx/backend/metal/kernels/reduce.h +5 -0
data/mlx/mlx/backend/metal/kernels/reduce.metal +169 -0
data/mlx/mlx/backend/metal/kernels/reduce_utils.h +6 -0
data/mlx/mlx/backend/metal/kernels/reduction/ops.h +275 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_all.h +66 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_col.h +398 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_init.h +8 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_row.h +369 -0
data/mlx/mlx/backend/metal/kernels/rms_norm.metal +391 -0
data/mlx/mlx/backend/metal/kernels/rope.metal +229 -0
data/mlx/mlx/backend/metal/kernels/scaled_dot_product_attention.metal +44 -0
data/mlx/mlx/backend/metal/kernels/scan.h +514 -0
data/mlx/mlx/backend/metal/kernels/scan.metal +109 -0
data/mlx/mlx/backend/metal/kernels/sdpa_vector.h +394 -0
data/mlx/mlx/backend/metal/kernels/softmax.h +190 -0
data/mlx/mlx/backend/metal/kernels/softmax.metal +24 -0
data/mlx/mlx/backend/metal/kernels/sort.h +719 -0
data/mlx/mlx/backend/metal/kernels/sort.metal +80 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/attn.h +296 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention.h +471 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention.metal +27 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention_nax.h +481 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention_nax.metal +28 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/loader.h +264 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/mma.h +750 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/nax.h +1076 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/params.h +44 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/transforms.h +71 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/conv.h +13 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv.h +176 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv.metal +56 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_general.h +225 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_general.metal +47 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loader.h +6 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_l.h +451 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_n.h +319 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_general.h +381 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/params.h +62 -0
data/mlx/mlx/backend/metal/kernels/steel/defines.h +7 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/gemm.h +295 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/gemm_nax.h +157 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused.h +346 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused.metal +34 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused_nax.h +219 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused_nax.metal +30 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather.h +459 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather.metal +59 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather_nax.h +143 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather_nax.metal +37 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_masked.h +719 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_masked.metal +76 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_segmented.h +266 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_segmented.metal +43 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk.h +227 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk.metal +76 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk_nax.h +152 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk_nax.metal +30 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/loader.h +137 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/mma.h +1146 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/nax.h +1084 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/params.h +65 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/transforms.h +72 -0
data/mlx/mlx/backend/metal/kernels/steel/utils/integral_constant.h +134 -0
data/mlx/mlx/backend/metal/kernels/steel/utils/type_traits.h +55 -0
data/mlx/mlx/backend/metal/kernels/steel/utils.h +42 -0
data/mlx/mlx/backend/metal/kernels/ternary.h +145 -0
data/mlx/mlx/backend/metal/kernels/ternary.metal +48 -0
data/mlx/mlx/backend/metal/kernels/ternary_ops.h +10 -0
data/mlx/mlx/backend/metal/kernels/unary.h +63 -0
data/mlx/mlx/backend/metal/kernels/unary.metal +115 -0
data/mlx/mlx/backend/metal/kernels/unary_ops.h +454 -0
data/mlx/mlx/backend/metal/kernels/utils.h +445 -0
data/mlx/mlx/backend/metal/kernels.h +375 -0
data/mlx/mlx/backend/metal/logsumexp.cpp +95 -0
data/mlx/mlx/backend/metal/make_compiled_preamble.sh +120 -0
data/mlx/mlx/backend/metal/matmul.cpp +2572 -0
data/mlx/mlx/backend/metal/matmul.h +144 -0
data/mlx/mlx/backend/metal/metal.cpp +50 -0
data/mlx/mlx/backend/metal/metal.h +25 -0
data/mlx/mlx/backend/metal/no_metal.cpp +42 -0
data/mlx/mlx/backend/metal/nojit_kernels.cpp +414 -0
data/mlx/mlx/backend/metal/normalization.cpp +433 -0
data/mlx/mlx/backend/metal/primitives.cpp +242 -0
data/mlx/mlx/backend/metal/quantized.cpp +1651 -0
data/mlx/mlx/backend/metal/reduce.cpp +1038 -0
data/mlx/mlx/backend/metal/reduce.h +41 -0
data/mlx/mlx/backend/metal/resident.cpp +100 -0
data/mlx/mlx/backend/metal/resident.h +32 -0
data/mlx/mlx/backend/metal/rope.cpp +165 -0
data/mlx/mlx/backend/metal/scaled_dot_product_attention.cpp +798 -0
data/mlx/mlx/backend/metal/scan.cpp +145 -0
data/mlx/mlx/backend/metal/scan.h +17 -0
data/mlx/mlx/backend/metal/slicing.cpp +99 -0
data/mlx/mlx/backend/metal/softmax.cpp +87 -0
data/mlx/mlx/backend/metal/sort.cpp +368 -0
data/mlx/mlx/backend/metal/ternary.cpp +160 -0
data/mlx/mlx/backend/metal/ternary.h +21 -0
data/mlx/mlx/backend/metal/unary.cpp +161 -0
data/mlx/mlx/backend/metal/unary.h +21 -0
data/mlx/mlx/backend/metal/utils.cpp +77 -0
data/mlx/mlx/backend/metal/utils.h +99 -0
data/mlx/mlx/backend/no_cpu/CMakeLists.txt +7 -0
data/mlx/mlx/backend/no_cpu/compiled.cpp +24 -0
data/mlx/mlx/backend/no_cpu/device_info.cpp +22 -0
data/mlx/mlx/backend/no_cpu/primitives.cpp +146 -0
data/mlx/mlx/backend/no_gpu/CMakeLists.txt +8 -0
data/mlx/mlx/backend/no_gpu/allocator.cpp +134 -0
data/mlx/mlx/backend/no_gpu/apple_memory.h +16 -0
data/mlx/mlx/backend/no_gpu/device_info.cpp +22 -0
data/mlx/mlx/backend/no_gpu/eval.cpp +24 -0
data/mlx/mlx/backend/no_gpu/event.cpp +53 -0
data/mlx/mlx/backend/no_gpu/fence.cpp +54 -0
data/mlx/mlx/backend/no_gpu/linux_memory.h +22 -0
data/mlx/mlx/backend/no_gpu/primitives.cpp +185 -0
data/mlx/mlx/compile.cpp +1243 -0
data/mlx/mlx/compile.h +45 -0
data/mlx/mlx/compile_impl.h +70 -0
data/mlx/mlx/device.cpp +72 -0
data/mlx/mlx/device.h +56 -0
data/mlx/mlx/distributed/CMakeLists.txt +14 -0
data/mlx/mlx/distributed/distributed.cpp +197 -0
data/mlx/mlx/distributed/distributed.h +61 -0
data/mlx/mlx/distributed/distributed_impl.h +59 -0
data/mlx/mlx/distributed/jaccl/CMakeLists.txt +12 -0
data/mlx/mlx/distributed/jaccl/jaccl.cpp +178 -0
data/mlx/mlx/distributed/jaccl/jaccl.h +12 -0
data/mlx/mlx/distributed/jaccl/mesh.cpp +451 -0
data/mlx/mlx/distributed/jaccl/mesh.h +122 -0
data/mlx/mlx/distributed/jaccl/no_jaccl.cpp +20 -0
data/mlx/mlx/distributed/jaccl/ring.cpp +692 -0
data/mlx/mlx/distributed/jaccl/ring.h +178 -0
data/mlx/mlx/distributed/jaccl/utils.cpp +329 -0
data/mlx/mlx/distributed/jaccl/utils.h +342 -0
data/mlx/mlx/distributed/mpi/CMakeLists.txt +5 -0
data/mlx/mlx/distributed/mpi/mpi.cpp +501 -0
data/mlx/mlx/distributed/mpi/mpi.h +12 -0
data/mlx/mlx/distributed/mpi/mpi_declarations.h +28 -0
data/mlx/mlx/distributed/mpi/no_mpi.cpp +20 -0
data/mlx/mlx/distributed/nccl/CMakeLists.txt +26 -0
data/mlx/mlx/distributed/nccl/nccl.cpp +443 -0
data/mlx/mlx/distributed/nccl/nccl.h +12 -0
data/mlx/mlx/distributed/nccl/nccl_stub/CMakeLists.txt +1 -0
data/mlx/mlx/distributed/nccl/nccl_stub/nccl_stubs.cpp +54 -0
data/mlx/mlx/distributed/nccl/no_nccl.cpp +20 -0
data/mlx/mlx/distributed/ops.cpp +186 -0
data/mlx/mlx/distributed/ops.h +57 -0
data/mlx/mlx/distributed/primitives.cpp +95 -0
data/mlx/mlx/distributed/primitives.h +156 -0
data/mlx/mlx/distributed/reduction_ops.h +38 -0
data/mlx/mlx/distributed/ring/CMakeLists.txt +5 -0
data/mlx/mlx/distributed/ring/no_ring.cpp +20 -0
data/mlx/mlx/distributed/ring/ring.cpp +870 -0
data/mlx/mlx/distributed/ring/ring.h +12 -0
data/mlx/mlx/distributed/utils.cpp +206 -0
data/mlx/mlx/distributed/utils.h +67 -0
data/mlx/mlx/dtype.cpp +197 -0
data/mlx/mlx/dtype.h +116 -0
data/mlx/mlx/dtype_utils.cpp +42 -0
data/mlx/mlx/dtype_utils.h +119 -0
data/mlx/mlx/einsum.cpp +941 -0
data/mlx/mlx/einsum.h +23 -0
data/mlx/mlx/event.h +58 -0
data/mlx/mlx/export.cpp +1130 -0
data/mlx/mlx/export.h +137 -0
data/mlx/mlx/export_impl.h +99 -0
data/mlx/mlx/fast.cpp +941 -0
data/mlx/mlx/fast.h +103 -0
data/mlx/mlx/fast_primitives.h +427 -0
data/mlx/mlx/fence.h +39 -0
data/mlx/mlx/fft.cpp +262 -0
data/mlx/mlx/fft.h +159 -0
data/mlx/mlx/graph_utils.cpp +175 -0
data/mlx/mlx/graph_utils.h +67 -0
data/mlx/mlx/io/CMakeLists.txt +25 -0
data/mlx/mlx/io/gguf.cpp +470 -0
data/mlx/mlx/io/gguf.h +20 -0
data/mlx/mlx/io/gguf_quants.cpp +164 -0
data/mlx/mlx/io/load.cpp +397 -0
data/mlx/mlx/io/load.h +175 -0
data/mlx/mlx/io/no_gguf.cpp +20 -0
data/mlx/mlx/io/no_safetensors.cpp +37 -0
data/mlx/mlx/io/safetensors.cpp +234 -0
data/mlx/mlx/io.h +61 -0
data/mlx/mlx/linalg.cpp +708 -0
data/mlx/mlx/linalg.h +115 -0
data/mlx/mlx/memory.h +80 -0
data/mlx/mlx/mlx.h +25 -0
data/mlx/mlx/ops.cpp +6094 -0
data/mlx/mlx/ops.h +1610 -0
data/mlx/mlx/primitives.cpp +5850 -0
data/mlx/mlx/primitives.h +2525 -0
data/mlx/mlx/random.cpp +492 -0
data/mlx/mlx/random.h +283 -0
data/mlx/mlx/scheduler.cpp +73 -0
data/mlx/mlx/scheduler.h +189 -0
data/mlx/mlx/small_vector.h +540 -0
data/mlx/mlx/stream.h +42 -0
data/mlx/mlx/threadpool.h +133 -0
data/mlx/mlx/transforms.cpp +1065 -0
data/mlx/mlx/transforms.h +231 -0
data/mlx/mlx/transforms_impl.h +88 -0
data/mlx/mlx/types/bf16.h +187 -0
data/mlx/mlx/types/complex.h +113 -0
data/mlx/mlx/types/fp16.h +234 -0
data/mlx/mlx/types/half_types.h +58 -0
data/mlx/mlx/types/limits.h +70 -0
data/mlx/mlx/utils.cpp +302 -0
data/mlx/mlx/utils.h +174 -0
data/mlx/mlx/version.cpp +11 -0
data/mlx/mlx/version.h +22 -0
data/mlx/mlx.pc.in +52 -0
metadata +643 -0

data/mlx/mlx/backend/metal/conv.cpp ADDED Viewed

@@ -0,0 +1,1118 @@
+// Copyright © 2023-2024 Apple Inc.
+#include <algorithm>
+#include <cassert>
+#include <numeric>
+#include "mlx/backend/gpu/copy.h"
+#include "mlx/backend/metal/device.h"
+#include "mlx/backend/metal/kernels.h"
+#include "mlx/backend/metal/kernels/defines.h"
+#include "mlx/backend/metal/kernels/steel/conv/params.h"
+#include "mlx/backend/metal/matmul.h"
+#include "mlx/backend/metal/utils.h"
+#include "mlx/primitives.h"
+#include "mlx/utils.h"
+using namespace mlx::steel;
+namespace mlx::core {
+namespace {
+template <int N>
+void explicit_gemm_conv_ND_gpu(
+    const Stream& s,
+    metal::Device& d,
+    const array& in,
+    const array& wt,
+    array out,
+    const MLXConvParams<N>& conv_params) {
+  // Get gemm shapes
+  int implicit_M = out.size() / conv_params.O;
+  int implicit_K = wt.size() / conv_params.O;
+  int implicit_N = conv_params.O;
+  // Prepare unfolding array
+  Shape unfolded_shape{implicit_M, implicit_K};
+  array in_unfolded(unfolded_shape, in.dtype(), nullptr, {});
+  in_unfolded.set_data(allocator::malloc(in_unfolded.nbytes()));
+  // Prepare unfolding kernel
+  std::string kname;
+  kname.reserve(32);
+  concatenate(kname, "naive_unfold_nd_", type_to_name(in_unfolded), "_", N);
+  auto& compute_encoder = d.get_command_encoder(s.index);
+  auto kernel = d.get_kernel(kname);
+  compute_encoder.set_compute_pipeline_state(kernel);
+  compute_encoder.set_input_array(in, 0);
+  compute_encoder.set_output_array(in_unfolded, 1);
+  compute_encoder.set_bytes(conv_params, 2);
+  // Launch unfolding kernel
+  size_t tgp_x = std::min(conv_params.C, 64);
+  tgp_x = 32 * ((tgp_x + 32 - 1) / 32);
+  size_t tgp_y = 256 / tgp_x;
+  MTL::Size grid_dims = MTL::Size(
+      conv_params.C, unfolded_shape[1] / conv_params.C, unfolded_shape[0]);
+  MTL::Size group_dims = MTL::Size(
+      std::min(tgp_x, grid_dims.width), std::min(tgp_y, grid_dims.height), 1);
+  compute_encoder.dispatch_threads(grid_dims, group_dims);
+  // Reshape weight
+  Shape wt_reshape{implicit_K, implicit_N};
+  Strides wt_restride{1, implicit_K};
+  array wt_reshaped(wt_reshape, wt.dtype(), nullptr, {});
+  auto wt_flags = wt.flags();
+  wt_flags.row_contiguous = false;
+  wt_flags.col_contiguous = true;
+  wt_reshaped.copy_shared_buffer(wt, wt_restride, wt_flags, wt.data_size());
+  // Perform gemm
+  std::vector<array> copies = {in_unfolded};
+  return steel_matmul(
+      s,
+      d,
+      /*a = */ in_unfolded,
+      /*b = */ wt_reshaped,
+      /*c = */ out,
+      /*M = */ implicit_M,
+      /*N = */ implicit_N,
+      /*K = */ implicit_K,
+      /*batch_size_out = */ 1,
+      /*a_cols = */ implicit_K,
+      /*b_cols = */ implicit_K,
+      /*a_transposed = */ false,
+      /*b_transposed = */ true,
+      /*copies = */ copies);
+}
+template <int N>
+void explicit_gemm_conv_group_ND_gpu(
+    const Stream& s,
+    metal::Device& d,
+    const array& in,
+    const array& wt,
+    array out,
+    const MLXConvParams<N>& conv_params) {
+  const int groups = conv_params.groups;
+  const int C_per_group = conv_params.C / conv_params.groups;
+  const int O_per_group = conv_params.O / conv_params.groups;
+  // Get gemm shapes
+  const int implicit_M = out.size() / conv_params.O;
+  const int implicit_K = wt.size() / conv_params.O;
+  const int implicit_N = O_per_group;
+  int kernel_size = 1;
+  for (int i = 0; i < N; ++i) {
+    kernel_size *= conv_params.wS[i];
+  }
+  // Prepare unfolding array
+  Shape unfolded_shape{implicit_M, implicit_K * groups};
+  array in_unfolded(unfolded_shape, in.dtype(), nullptr, {});
+  in_unfolded.set_data(allocator::malloc(in_unfolded.nbytes()));
+  // Prepare unfolding kernel
+  std::string kname;
+  kname.reserve(32);
+  concatenate(
+      kname, "naive_unfold_transpose_nd_", type_to_name(in_unfolded), "_", N);
+  auto& compute_encoder = d.get_command_encoder(s.index);
+  auto kernel = d.get_kernel(kname);
+  compute_encoder.set_compute_pipeline_state(kernel);
+  compute_encoder.set_input_array(in, 0);
+  compute_encoder.set_output_array(in_unfolded, 1);
+  compute_encoder.set_bytes(conv_params, 2);
+  // Launch unfolding kernel
+  size_t tgp_x = std::min(conv_params.C, 64);
+  tgp_x = 32 * ((tgp_x + 32 - 1) / 32);
+  size_t tgp_y = 256 / tgp_x;
+  MTL::Size grid_dims = MTL::Size(
+      conv_params.C, unfolded_shape[1] / conv_params.C, unfolded_shape[0]);
+  MTL::Size group_dims = MTL::Size(
+      std::min(tgp_x, grid_dims.width), std::min(tgp_y, grid_dims.height), 1);
+  compute_encoder.dispatch_threads(grid_dims, group_dims);
+  // Transpose kernel weights so that we can slice them by contiguous chunks
+  // of channel groups.
+  array wt_view(
+      {wt.shape(0), C_per_group, kernel_size}, wt.dtype(), nullptr, {});
+  wt_view.copy_shared_buffer(
+      wt, {wt.strides(0), 1, C_per_group}, wt.flags(), wt.size());
+  // Materialize
+  array wt_transpose = contiguous_copy_gpu(wt_view, s);
+  // Perform gemm
+  std::vector<array> copies = {in_unfolded, wt_transpose};
+  return steel_matmul_regular(
+      /* const Stream& s = */ s,
+      /* Device& d = */ d,
+      /* const array& a = */ in_unfolded,
+      /* const array& b = */ wt_transpose,
+      /* array& c = */ out,
+      /* int M = */ implicit_M,
+      /* int N = */ implicit_N,
+      /* int K = */ implicit_K,
+      /* int batch_size_out = */ groups,
+      /* int lda = */ implicit_K * groups,
+      /* int ldb = */ implicit_K,
+      /* int ldd = */ implicit_N * groups,
+      /* bool transpose_a = */ false,
+      /* bool transpose_b = */ true,
+      /* std::vector<array>& copies = */ copies,
+      /* Shape batch_shape = */ {1},
+      /* Strides batch_strides = */ {0},
+      /* int64_t A_batch_strides = */ int64_t(implicit_K),
+      /* int64_t B_batch_strides = */ int64_t(implicit_N) * implicit_K,
+      /* int64_t matrix_stride_out = */ int64_t(implicit_N));
+}
+void implicit_gemm_conv_2D_gpu(
+    const Stream& s,
+    metal::Device& d,
+    const array& in,
+    const array& wt,
+    array out,
+    const MLXConvParams<2>& conv_params) {
+  const int groups = conv_params.groups;
+  const int C_per_group = conv_params.C / conv_params.groups;
+  const int O_per_group = conv_params.O / conv_params.groups;
+  // Deduce implicit gemm size
+  const int implicit_M = conv_params.N * conv_params.oS[0] * conv_params.oS[1];
+  const int implicit_N = O_per_group;
+  const int implicit_K = conv_params.wS[0] * conv_params.wS[1] * C_per_group;
+  // Determine block and warp tiles
+  int wm = 2, wn = 2;
+  int bm = implicit_M >= 8192 && C_per_group >= 64 ? 64 : 32;
+  int bn = (bm == 64 || implicit_N >= 64) ? 64 : 32;
+  int bk = 16;
+  if (implicit_N <= 16) {
+    bn = 8;
+    wm = 4;
+    wn = 1;
+  }
+  int tn = (implicit_N + bn - 1) / bn;
+  int tm = (implicit_M + bm - 1) / bm;
+  int swizzle_log = 0;
+  // Fix small channel specialization
+  int n_channel_specialization = 0;
+  int channel_k_iters = ((C_per_group + bk - 1) / bk);
+  int gemm_k_iters = conv_params.wS[0] * conv_params.wS[1] * channel_k_iters;
+  if (C_per_group <= 2) {
+    gemm_k_iters = (implicit_K + bk - 1) / bk;
+    n_channel_specialization = C_per_group;
+  } else if (C_per_group <= 4) {
+    gemm_k_iters = ((conv_params.wS[0] * conv_params.wS[1] * 4) + bk - 1) / bk;
+    n_channel_specialization = C_per_group;
+  }
+  bool small_filter = (!n_channel_specialization) &&
+      (conv_params.wS[0] <= 16 && conv_params.wS[1] <= 16);
+  // Fix host side helper params
+  int sign = (conv_params.flip ? -1 : 1);
+  int ijw = conv_params.in_strides[2] * conv_params.kdil[1];
+  int ijh = conv_params.in_strides[1] * conv_params.kdil[0];
+  int inp_jump_w = sign * ijw;
+  int inp_jump_h = sign * (ijh - (conv_params.wS[1] - 1) * ijw);
+  int inp_jump_c = bk - sign * (conv_params.wS[0] - 1) * ijh -
+      sign * (conv_params.wS[1] - 1) * ijw;
+  // Build implicit gemm params
+  ImplicitGemmConv2DParams gemm_params{
+      /* const int M = */ implicit_M,
+      /* const int N = */ implicit_N,
+      /* const int K = */ implicit_K,
+      /* const int gemm_k_iterations = */ gemm_k_iters,
+      /* const int inp_jump_w = */ inp_jump_w,
+      /* const int inp_jump_h = */ inp_jump_h,
+      /* const int inp_jump_c = */ inp_jump_c,
+      /* const int tiles_n = */ tn,
+      /* const int tiles_m = */ tm,
+      /* const int swizzle_log = */ swizzle_log};
+  // Determine kernel
+  std::string kname;
+  kname.reserve(64);
+  concatenate(
+      kname,
+      "implicit_gemm_conv_2d_",
+      type_to_name(out),
+      "_bm",
+      bm,
+      "_bn",
+      bn,
+      "_bk",
+      bk,
+      "_wm",
+      wm,
+      "_wn",
+      wn,
+      "_channel_",
+      n_channel_specialization ? std::to_string(n_channel_specialization) : "l",
+      "_filter_",
+      small_filter ? 's' : 'l');
+  // Encode and dispatch kernel
+  auto& compute_encoder = d.get_command_encoder(s.index);
+  auto kernel = get_steel_conv_kernel(
+      d,
+      kname,
+      out,
+      bm,
+      bn,
+      bk,
+      wm,
+      wn,
+      n_channel_specialization,
+      small_filter);
+  compute_encoder.set_compute_pipeline_state(kernel);
+  // Deduce grid launch dimensions
+  int tile = 1 << swizzle_log;
+  size_t grid_dim_y = (tm + tile - 1) / tile;
+  size_t grid_dim_x = tn * tile;
+  MTL::Size group_dims = MTL::Size(32, wn, wm);
+  MTL::Size grid_dims = MTL::Size(grid_dim_x, grid_dim_y, groups);
+  // Encode arrays
+  compute_encoder.set_input_array(in, 0);
+  compute_encoder.set_input_array(wt, 1);
+  compute_encoder.set_output_array(out, 2);
+  // Encode params
+  compute_encoder.set_bytes(conv_params, 3);
+  compute_encoder.set_bytes(gemm_params, 4);
+  // Launch kernel
+  compute_encoder.dispatch_threadgroups(grid_dims, group_dims);
+}
+void implicit_gemm_conv_2D_general_gpu(
+    const Stream& s,
+    metal::Device& d,
+    const array& in,
+    const array& wt,
+    array out,
+    const MLXConvParams<2>& conv_params) {
+  // Deduce implicit gemm size
+  int implicit_M = conv_params.N * conv_params.oS[0] * conv_params.oS[1];
+  int implicit_N = conv_params.O;
+  int implicit_K = conv_params.wS[0] * conv_params.wS[1] * conv_params.C;
+  // Determine block and warp tiles
+  int wm = 2, wn = 2;
+  // Make jump params
+  int f_wgt_jump_h =
+      std::lcm(conv_params.idil[0], conv_params.kdil[0]) / conv_params.kdil[0];
+  int f_wgt_jump_w =
+      std::lcm(conv_params.idil[1], conv_params.kdil[1]) / conv_params.kdil[1];
+  int f_out_jump_h =
+      std::lcm(conv_params.idil[0], conv_params.str[0]) / conv_params.str[0];
+  int f_out_jump_w =
+      std::lcm(conv_params.idil[1], conv_params.str[1]) / conv_params.str[1];
+  int adj_out_h = (conv_params.oS[0] + f_out_jump_h - 1) / f_out_jump_h;
+  int adj_out_w = (conv_params.oS[1] + f_out_jump_w - 1) / f_out_jump_w;
+  int adj_out_hw = adj_out_h * adj_out_w;
+  int adj_implicit_m = conv_params.N * adj_out_hw;
+  Conv2DGeneralJumpParams jump_params{
+      /* const int f_wgt_jump_h = */ f_wgt_jump_h,
+      /* const int f_wgt_jump_w = */ f_wgt_jump_w,
+      /* const int f_out_jump_h = */ f_out_jump_h,
+      /* const int f_out_jump_w = */ f_out_jump_w,
+      /* const int adj_out_h = */ adj_out_h,
+      /* const int adj_out_w = */ adj_out_w,
+      /* const int adj_out_hw = */ adj_out_hw,
+      /* const int adj_implicit_m = */ adj_implicit_m};
+  // Make base info
+  std::vector<Conv2DGeneralBaseInfo> base_h(f_out_jump_h);
+  std::vector<Conv2DGeneralBaseInfo> base_w(f_out_jump_w);
+  int jump_h = conv_params.flip ? -conv_params.kdil[0] : conv_params.kdil[0];
+  int jump_w = conv_params.flip ? -conv_params.kdil[1] : conv_params.kdil[1];
+  int init_h =
+      (conv_params.flip ? (conv_params.wS[0] - 1) * conv_params.kdil[0] : 0);
+  int init_w =
+      (conv_params.flip ? (conv_params.wS[1] - 1) * conv_params.kdil[1] : 0);
+  for (int i = 0; i < f_out_jump_h; ++i) {
+    int ih_loop = i * conv_params.str[0] - conv_params.pad[0] + init_h;
+    int wh_base = 0;
+    while (wh_base < conv_params.wS[0] && ih_loop % conv_params.idil[0] != 0) {
+      wh_base++;
+      ih_loop += jump_h;
+    }
+    int wh_size =
+        ((conv_params.wS[0] - wh_base) + f_wgt_jump_h - 1) / f_wgt_jump_h;
+    base_h[i] = {wh_base, wh_size};
+  }
+  for (int j = 0; j < f_out_jump_w; ++j) {
+    int iw_loop = j * conv_params.str[1] - conv_params.pad[1] + init_w;
+    int ww_base = 0;
+    while (ww_base < conv_params.wS[1] && iw_loop % conv_params.idil[1] != 0) {
+      ww_base++;
+      iw_loop += jump_w;
+    }
+    int ww_size =
+        ((conv_params.wS[1] - ww_base) + f_wgt_jump_w - 1) / f_wgt_jump_w;
+    base_w[j] = {ww_base, ww_size};
+  }
+  // Collect block sizes
+  int bm = adj_implicit_m >= 8192 && conv_params.C >= 64 ? 64 : 32;
+  int bn = (bm == 64 && implicit_N >= 64) ? 64 : 32;
+  int bk = 16;
+  int tn = (implicit_N + bn - 1) / bn;
+  int tm = (adj_implicit_m + bm - 1) / bm;
+  int swizzle_log = 0;
+  // Get channel iteration info
+  int channel_k_iters = ((conv_params.C + bk - 1) / bk);
+  int gemm_k_iters = channel_k_iters;
+  bool align_C = conv_params.C % bk == 0;
+  // Fix host side helper params
+  int sign = (conv_params.flip ? -1 : 1);
+  int ijw = conv_params.in_strides[2] * conv_params.kdil[1];
+  int ijh = conv_params.in_strides[1] * conv_params.kdil[0];
+  int inp_jump_w = sign * ijw;
+  int inp_jump_h = sign * (ijh - (conv_params.wS[1] - 1) * ijw);
+  int inp_jump_c = bk - sign * (conv_params.wS[0] - 1) * ijh -
+      sign * (conv_params.wS[1] - 1) * ijw;
+  // Build implicit gemm params
+  ImplicitGemmConv2DParams gemm_params{
+      /* const int M = */ implicit_M,
+      /* const int N = */ implicit_N,
+      /* const int K = */ implicit_K,
+      /* const int gemm_k_iterations = */ gemm_k_iters,
+      /* const int inp_jump_w = */ inp_jump_w,
+      /* const int inp_jump_h = */ inp_jump_h,
+      /* const int inp_jump_c = */ inp_jump_c,
+      /* const int tiles_n = */ tn,
+      /* const int tiles_m = */ tm,
+      /* const int swizzle_log = */ swizzle_log};
+  // Determine kernel
+  std::string kname;
+  kname.reserve(64);
+  concatenate(
+      kname,
+      "implicit_gemm_conv_2d_general_",
+      type_to_name(out),
+      "_bm",
+      bm,
+      "_bn",
+      bn,
+      "_bk",
+      bk,
+      "_wm",
+      wm,
+      "_wn",
+      wn);
+  std::string hash_name;
+  hash_name.reserve(64);
+  concatenate(hash_name, kname, "_alC_", align_C);
+  metal::MTLFCList func_consts = {
+      {&align_C, MTL::DataType::DataTypeBool, 200},
+  };
+  // Encode and dispatch kernel
+  auto& compute_encoder = d.get_command_encoder(s.index);
+  auto kernel = get_steel_conv_general_kernel(
+      d, kname, hash_name, func_consts, out, bm, bn, bk, wm, wn);
+  compute_encoder.set_compute_pipeline_state(kernel);
+  // Deduce grid launch dimensions
+  int tile = 1 << swizzle_log;
+  size_t grid_dim_y = (tm + tile - 1) / tile;
+  size_t grid_dim_x = tn * tile;
+  size_t grid_dim_z = f_out_jump_h * f_out_jump_w;
+  MTL::Size group_dims = MTL::Size(32, wn, wm);
+  MTL::Size grid_dims = MTL::Size(grid_dim_x, grid_dim_y, grid_dim_z);
+  // Encode arrays
+  compute_encoder.set_input_array(in, 0);
+  compute_encoder.set_input_array(wt, 1);
+  compute_encoder.set_output_array(out, 2);
+  // Encode params
+  compute_encoder.set_bytes(conv_params, 3);
+  compute_encoder.set_bytes(gemm_params, 4);
+  compute_encoder.set_bytes(jump_params, 5);
+  compute_encoder.set_vector_bytes(base_h, 6);
+  compute_encoder.set_vector_bytes(base_w, 7);
+  // Launch kernel
+  compute_encoder.dispatch_threadgroups(grid_dims, group_dims);
+}
+void winograd_conv_2D_gpu(
+    const Stream& s,
+    metal::Device& d,
+    const array& in,
+    const array& wt,
+    array out,
+    const MLXConvParams<2>& conv_params,
+    std::vector<array>& copies_w) {
+  Shape padded_shape = {
+      conv_params.N,
+      conv_params.iS[0] + 2 * conv_params.pad[0],
+      conv_params.iS[1] + 2 * conv_params.pad[1],
+      conv_params.C};
+  padded_shape[1] = 6 * ((padded_shape[1] - 2 + 5) / 6) + 2;
+  padded_shape[2] = 6 * ((padded_shape[2] - 2 + 5) / 6) + 2;
+  array in_padded(std::move(padded_shape), in.dtype(), nullptr, {});
+  // Fill with zeros
+  array zero_arr = array(0, in.dtype());
+  fill_gpu(zero_arr, in_padded, s);
+  copies_w.push_back(zero_arr);
+  // Pick input slice from padded
+  size_t data_offset = conv_params.pad[0] * in_padded.strides()[1] +
+      conv_params.pad[1] * in_padded.strides()[2];
+  array in_padded_slice(in.shape(), in_padded.dtype(), nullptr, {});
+  in_padded_slice.copy_shared_buffer(
+      in_padded,
+      in_padded.strides(),
+      in_padded.flags(),
+      in_padded_slice.size(),
+      data_offset);
+  // Copy input values into the slice
+  copy_gpu_inplace(in, in_padded_slice, CopyType::GeneralGeneral, s);
+  copies_w.push_back(in_padded_slice);
+  copies_w.push_back(in_padded);
+  MLXConvParams<2> conv_params_updated{
+      /* const int  N = */ static_cast<int>(in_padded.shape(0)),
+      /* const int  C = */ static_cast<int>(in_padded.shape(3)),
+      /* const int  O = */ static_cast<int>(wt.shape(0)),
+      /* const int iS[NDIM] = */
+      {static_cast<int>(in_padded.shape(1)),
+       static_cast<int>(in_padded.shape(2))},
+      /* const int wS[NDIM] = */
+      {static_cast<int>(wt.shape(1)), static_cast<int>(wt.shape(2))},
+      /* const int oS[NDIM] = */
+      {static_cast<int>(out.shape(1)), static_cast<int>(out.shape(2))},
+      /* const int str[NDIM] = */ {1, 1},
+      /* const int pad[NDIM] = */ {0, 0},
+      /* const int kdil[NDIM] = */ {1, 1},
+      /* const int idil[NDIM] = */ {1, 1},
+      /* const size_t in_strides[NDIM + 2] = */
+      {in_padded.strides()[0],
+       in_padded.strides()[1],
+       in_padded.strides()[2],
+       in_padded.strides()[3]},
+      /* const size_t wt_strides[NDIM + 2] = */
+      {wt.strides()[0], wt.strides()[1], wt.strides()[2], wt.strides()[3]},
+      /* const size_t out_strides[NDIM + 2] = */
+      {out.strides()[0], out.strides()[1], out.strides()[2], out.strides()[3]},
+      /* const int groups = */ 1,
+      /* const bool flip = */ false,
+  };
+  int O_c = conv_params.O;
+  int C_c = conv_params.C;
+  int N_tiles_n = conv_params.N;
+  int N_tiles_h = (conv_params.oS[0] + 5) / 6;
+  int N_tiles_w = (conv_params.oS[1] + 5) / 6;
+  int N_tiles = N_tiles_n * N_tiles_h * N_tiles_w;
+  // Do filter transform
+  Shape filt_wg_shape = {8 * 8, conv_params.C, conv_params.O};
+  array filt_wg(std::move(filt_wg_shape), wt.dtype(), nullptr, {});
+  filt_wg.set_data(allocator::malloc(filt_wg.nbytes()));
+  copies_w.push_back(filt_wg);
+  {
+    int bc = 32;
+    int bo = 4;
+    std::string kname;
+    kname.reserve(32);
+    concatenate(
+        kname,
+        "winograd_conv_2d_weight_transform_",
+        type_to_name(out),
+        "_bc",
+        bc);
+    auto& compute_encoder = d.get_command_encoder(s.index);
+    auto kernel = d.get_kernel(kname);
+    compute_encoder.set_compute_pipeline_state(kernel);
+    compute_encoder.set_input_array(wt, 0);
+    compute_encoder.set_output_array(filt_wg, 1);
+    compute_encoder.set_bytes(C_c, 2);
+    compute_encoder.set_bytes(O_c, 3);
+    MTL::Size group_dims = MTL::Size(32, bo, 1);
+    MTL::Size grid_dims = MTL::Size(O_c / bo, 1, 1);
+    compute_encoder.dispatch_threadgroups(grid_dims, group_dims);
+  }
+  // Do input transform
+  Shape inp_wg_shape = {8 * 8, N_tiles, conv_params.C};
+  array inp_wg(std::move(inp_wg_shape), in.dtype(), nullptr, {});
+  inp_wg.set_data(allocator::malloc(inp_wg.nbytes()));
+  copies_w.push_back(inp_wg);
+  {
+    int bc = 32;
+    int wm = 2;
+    int wn = 2;
+    std::string kname;
+    kname.reserve(32);
+    concatenate(
+        kname,
+        "winograd_conv_2d_input_transform_",
+        type_to_name(out),
+        "_bc",
+        bc);
+    auto& compute_encoder = d.get_command_encoder(s.index);
+    auto kernel = d.get_kernel(kname);
+    compute_encoder.set_compute_pipeline_state(kernel);
+    compute_encoder.set_input_array(in_padded, 0);
+    compute_encoder.set_output_array(inp_wg, 1);
+    compute_encoder.set_bytes(conv_params_updated, 2);
+    MTL::Size group_dims = MTL::Size(32, wn, wm);
+    MTL::Size grid_dims = MTL::Size(N_tiles_w, N_tiles_h, N_tiles_n);
+    compute_encoder.dispatch_threadgroups(grid_dims, group_dims);
+  }
+  // Do batched gemm
+  Shape out_wg_shape = {8 * 8, N_tiles, conv_params.O};
+  array out_wg(std::move(out_wg_shape), in.dtype(), nullptr, {});
+  out_wg.set_data(allocator::malloc(out_wg.nbytes()));
+  copies_w.push_back(out_wg);
+  {
+    std::vector<array> empty_copies;
+    steel_matmul(
+        s,
+        d,
+        /*a = */ inp_wg,
+        /*b = */ filt_wg,
+        /*c = */ out_wg,
+        /*M = */ N_tiles,
+        /*N = */ conv_params.O,
+        /*K = */ conv_params.C,
+        /*batch_size_out = */ 8 * 8,
+        /*a_cols = */ conv_params.C,
+        /*b_cols = */ conv_params.O,
+        /*a_transposed = */ false,
+        /*b_transposed = */ false,
+        /*copies = */ empty_copies);
+  }
+  // Do output transform
+  {
+    int bc = 32;
+    int wm = 2;
+    int wn = 2;
+    std::string kname;
+    kname.reserve(32);
+    concatenate(
+        kname,
+        "winograd_conv_2d_output_transform_",
+        type_to_name(out),
+        "_bo",
+        bc);
+    auto& compute_encoder = d.get_command_encoder(s.index);
+    auto kernel = d.get_kernel(kname);
+    compute_encoder.set_compute_pipeline_state(kernel);
+    compute_encoder.set_input_array(out_wg, 0);
+    compute_encoder.set_output_array(out, 1);
+    compute_encoder.set_bytes(conv_params_updated, 2);
+    MTL::Size group_dims = MTL::Size(32, wn, wm);
+    MTL::Size grid_dims = MTL::Size(N_tiles_w, N_tiles_h, N_tiles_n);
+    compute_encoder.dispatch_threadgroups(grid_dims, group_dims);
+  }
+}
+void depthwise_conv_2D_gpu(
+    const Stream& s,
+    metal::Device& d,
+    const array& in,
+    const array& wt,
+    array out,
+    const MLXConvParams<2>& conv_params) {
+  std::string base_name;
+  base_name.reserve(32);
+  concatenate(base_name, "depthwise_conv_2d_", type_to_name(out));
+  const int N = conv_params.N;
+  const int ker_h = conv_params.wS[0];
+  const int ker_w = conv_params.wS[1];
+  const int str_h = conv_params.str[0];
+  const int str_w = conv_params.str[1];
+  const int tc = 8;
+  const int tw = 8;
+  const int th = 4;
+  const bool do_flip = conv_params.flip;
+  metal::MTLFCList func_consts = {
+      {&ker_h, MTL::DataType::DataTypeInt, 00},
+      {&ker_w, MTL::DataType::DataTypeInt, 01},
+      {&str_h, MTL::DataType::DataTypeInt, 10},
+      {&str_w, MTL::DataType::DataTypeInt, 11},
+      {&th, MTL::DataType::DataTypeInt, 100},
+      {&tw, MTL::DataType::DataTypeInt, 101},
+      {&do_flip, MTL::DataType::DataTypeBool, 200},
+  };
+  // clang-format off
+  std::string hash_name;
+  hash_name.reserve(64);
+  concatenate(
+      hash_name,
+      base_name,
+  "_ker_h_", ker_h,
+  "_ker_w_", ker_w,
+  "_str_h_", str_h,
+  "_str_w_", str_w,
+  "_tgp_h_", th,
+  "_tgp_w_", tw,
+  "_do_flip_", do_flip ? 't' : 'n'); // clang-format on
+  auto& compute_encoder = d.get_command_encoder(s.index);
+  auto kernel = d.get_kernel(base_name, hash_name, func_consts);
+  compute_encoder.set_compute_pipeline_state(kernel);
+  compute_encoder.set_input_array(in, 0);
+  compute_encoder.set_input_array(wt, 1);
+  compute_encoder.set_output_array(out, 2);
+  compute_encoder.set_bytes(conv_params, 3);
+  MTL::Size group_dims = MTL::Size(tc, tw, th);
+  MTL::Size grid_dims = MTL::Size(
+      conv_params.C / tc, conv_params.oS[1] / tw, (conv_params.oS[0] / th) * N);
+  compute_encoder.dispatch_threadgroups(grid_dims, group_dims);
+}
+void dispatch_conv_2D_gpu(
+    const Stream& s,
+    metal::Device& d,
+    const array& in,
+    const array& wt,
+    array out,
+    const MLXConvParams<2>& conv_params,
+    std::vector<array>& copies) {
+  bool is_stride_one = conv_params.str[0] == 1 && conv_params.str[1] == 1;
+  bool is_kdil_one = conv_params.kdil[0] == 1 && conv_params.kdil[1] == 1;
+  bool is_idil_one = conv_params.idil[0] == 1 && conv_params.idil[1] == 1;
+  if (is_idil_one && conv_params.groups > 1) {
+    const int C_per_group = conv_params.C / conv_params.groups;
+    const int O_per_group = conv_params.O / conv_params.groups;
+    if (C_per_group == 1 && O_per_group == 1 && is_kdil_one &&
+        conv_params.wS[0] <= 7 && conv_params.wS[1] <= 7 &&
+        conv_params.str[0] <= 2 && conv_params.str[1] <= 2 &&
+        conv_params.oS[0] % 8 == 0 && conv_params.oS[1] % 8 == 0 &&
+        conv_params.wt_strides[1] == conv_params.wS[1] &&
+        conv_params.C % 16 == 0 && conv_params.C == conv_params.O) {
+      return depthwise_conv_2D_gpu(s, d, in, wt, out, conv_params);
+    }
+    if ((C_per_group <= 4 || C_per_group % 16 == 0) &&
+        (O_per_group <= 16 || O_per_group % 16 == 0)) {
+      return implicit_gemm_conv_2D_gpu(s, d, in, wt, out, conv_params);
+    } else {
+      return explicit_gemm_conv_group_ND_gpu(s, d, in, wt, out, conv_params);
+    }
+  }
+  // Direct to winograd conv
+  bool inp_large =
+      (conv_params.N * conv_params.iS[0] * conv_params.iS[1]) >= 4096;
+  bool channels_large = (conv_params.C + conv_params.O) >= 256;
+  bool out_large =
+      (conv_params.N * conv_params.oS[0] * conv_params.oS[1]) >= 256;
+  if (!conv_params.flip && is_stride_one && is_kdil_one && is_idil_one &&
+      conv_params.wS[0] == 3 && conv_params.wS[1] == 3 &&
+      conv_params.C % 32 == 0 && conv_params.O % 32 == 0 && inp_large &&
+      channels_large) {
+    return winograd_conv_2D_gpu(s, d, in, wt, out, conv_params, copies);
+  }
+  // Direct to implicit gemm conv
+  if (is_idil_one && (conv_params.C <= 4 || conv_params.C % 16 == 0) &&
+      (conv_params.O <= 16 || conv_params.O % 16 == 0)) {
+    return implicit_gemm_conv_2D_gpu(s, d, in, wt, out, conv_params);
+  }
+  else if ((conv_params.C % 16 == 0 && conv_params.O % 16 == 0) || out_large) {
+    return implicit_gemm_conv_2D_general_gpu(s, d, in, wt, out, conv_params);
+  }
+  // Direct to explicit gemm conv
+  else {
+    return explicit_gemm_conv_ND_gpu(s, d, in, wt, out, conv_params);
+  }
+}
+void depthwise_conv_1D_gpu(
+    const Stream& s,
+    metal::Device& d,
+    const array& in,
+    array wt,
+    array out) {
+  bool large = in.size() > INT32_MAX || in.data_size() > INT32_MAX;
+  std::string base_name;
+  base_name.reserve(32);
+  concatenate(
+      base_name,
+      "depthwise_conv_1d_",
+      large ? "_large" : "",
+      type_to_name(out));
+  if (!wt.flags().row_contiguous) {
+    wt = contiguous_copy_gpu(wt, s);
+    d.add_temporary(wt, s.index);
+  }
+  auto& compute_encoder = d.get_command_encoder(s.index);
+  auto kernel = d.get_kernel(base_name);
+  compute_encoder.set_compute_pipeline_state(kernel);
+  auto B = in.shape(0);
+  auto Tout = out.shape(1);
+  auto D = in.shape(2);
+  auto K = wt.shape(1);
+  compute_encoder.set_input_array(in, 0);
+  compute_encoder.set_input_array(wt, 1);
+  compute_encoder.set_output_array(out, 2);
+  if (large) {
+    int64_t strides[3] = {in.strides(0), in.strides(1), in.strides(2)};
+    compute_encoder.set_bytes(strides, 3, 3);
+  } else {
+    int strides[3] = {
+        static_cast<int>(in.strides(0)),
+        static_cast<int>(in.strides(1)),
+        static_cast<int>(in.strides(2))};
+    compute_encoder.set_bytes(strides, 3, 3);
+  }
+  compute_encoder.set_bytes(K, 4);
+  auto group_dims = get_block_dims(D, Tout, B);
+  MTL::Size grid_dims = MTL::Size(D, Tout, B);
+  compute_encoder.dispatch_threads(grid_dims, group_dims);
+}
+void conv_1D_gpu(
+    const Stream& s,
+    metal::Device& d,
+    const array& in,
+    const array& wt,
+    array out,
+    const std::vector<int>& padding,
+    const std::vector<int>& wt_strides,
+    const std::vector<int>& wt_dilation,
+    const std::vector<int>& in_dilation,
+    int groups,
+    bool flip,
+    std::vector<array>& copies) {
+  bool is_idil_one = in_dilation[0] == 1;
+  int C = in.shape(2);
+  int O = wt.shape(0);
+  // Fast path for fully separable 1D convolution
+  if (is_idil_one && (groups == C) && groups == O && wt_strides[0] == 1 &&
+      wt_dilation[0] == 1 && padding[0] == 0 && !flip) {
+    depthwise_conv_1D_gpu(s, d, in, wt, out);
+    return;
+  }
+  const int C_per_group = C / groups;
+  const int O_per_group = O / groups;
+  // Direct to implicit gemm conv
+  if (is_idil_one && (C_per_group <= 4 || C_per_group % 16 == 0) &&
+      (O_per_group <= 16 || O_per_group % 16 == 0)) {
+    MLXConvParams<2> conv_params{
+        /* const int  N = */ static_cast<int>(in.shape(0)),
+        /* const int  C = */ C,
+        /* const int  O = */ O,
+        /* const int iS[NDIM] = */ {static_cast<int>(in.shape(1)), 1},
+        /* const int wS[NDIM] = */ {static_cast<int>(wt.shape(1)), 1},
+        /* const int oS[NDIM] = */ {static_cast<int>(out.shape(1)), 1},
+        /* const int str[NDIM] = */ {wt_strides[0], 1},
+        /* const int pad[NDIM] = */ {padding[0], 0},
+        /* const int kdil[NDIM] = */ {wt_dilation[0], 1},
+        /* const int idil[NDIM] = */ {in_dilation[0], 1},
+        /* const size_t in_strides[NDIM + 2] = */
+        {in.strides()[0], in.strides()[1], 0, in.strides()[2]},
+        /* const size_t wt_strides[NDIM + 2] = */
+        {wt.strides()[0], wt.strides()[1], 0, wt.strides()[2]},
+        /* const size_t out_strides[NDIM + 2] = */
+        {out.strides()[0], out.strides()[1], 0, out.strides()[2]},
+        /* const int groups = */ groups,
+        /* const bool flip = */ flip};
+    dispatch_conv_2D_gpu(s, d, in, wt, out, conv_params, copies);
+    return;
+  }
+  // Make conv params
+  MLXConvParams<1> conv_params{
+      /* const int  N = */ static_cast<int>(in.shape(0)),
+      /* const int  C = */ static_cast<int>(in.shape(2)),
+      /* const int  O = */ static_cast<int>(wt.shape(0)),
+      /* const int iS[NDIM] = */ {static_cast<int>(in.shape(1))},
+      /* const int wS[NDIM] = */ {static_cast<int>(wt.shape(1))},
+      /* const int oS[NDIM] = */ {static_cast<int>(out.shape(1))},
+      /* const int str[NDIM] = */ {wt_strides[0]},
+      /* const int pad[NDIM] = */ {padding[0]},
+      /* const int kdil[NDIM] = */ {wt_dilation[0]},
+      /* const int idil[NDIM] = */ {in_dilation[0]},
+      /* const size_t in_strides[NDIM + 2] = */
+      {in.strides()[0], in.strides()[1], in.strides()[2]},
+      /* const size_t wt_strides[NDIM + 2] = */
+      {wt.strides()[0], wt.strides()[1], wt.strides()[2]},
+      /* const size_t out_strides[NDIM + 2] = */
+      {out.strides()[0], out.strides()[1], out.strides()[2]},
+      /* const int groups = */ groups,
+      /* const bool flip = */ flip};
+  // Direct to explicit gemm conv
+  if (groups > 1) {
+    return explicit_gemm_conv_group_ND_gpu(s, d, in, wt, out, conv_params);
+  } else {
+    return explicit_gemm_conv_ND_gpu(s, d, in, wt, out, conv_params);
+  }
+}
+void conv_2D_gpu(
+    const Stream& s,
+    metal::Device& d,
+    const array& in,
+    const array& wt,
+    array out,
+    const std::vector<int>& padding,
+    const std::vector<int>& wt_strides,
+    const std::vector<int>& wt_dilation,
+    const std::vector<int>& in_dilation,
+    const int groups,
+    bool flip,
+    std::vector<array>& copies) {
+  // Make conv params
+  MLXConvParams<2> conv_params{
+      /* const int  N = */ static_cast<int>(in.shape(0)),
+      /* const int  C = */ static_cast<int>(in.shape(3)),
+      /* const int  O = */ static_cast<int>(wt.shape(0)),
+      /* const int iS[NDIM] = */
+      {static_cast<int>(in.shape(1)), static_cast<int>(in.shape(2))},
+      /* const int wS[NDIM] = */
+      {static_cast<int>(wt.shape(1)), static_cast<int>(wt.shape(2))},
+      /* const int oS[NDIM] = */
+      {static_cast<int>(out.shape(1)), static_cast<int>(out.shape(2))},
+      /* const int str[NDIM] = */ {wt_strides[0], wt_strides[1]},
+      /* const int pad[NDIM] = */ {padding[0], padding[1]},
+      /* const int kdil[NDIM] = */ {wt_dilation[0], wt_dilation[1]},
+      /* const int idil[NDIM] = */ {in_dilation[0], in_dilation[1]},
+      /* const size_t in_strides[NDIM + 2] = */
+      {in.strides(0), in.strides(1), in.strides(2), in.strides(3)},
+      /* const size_t wt_strides[NDIM + 2] = */
+      {wt.strides(0), wt.strides(1), wt.strides(2), wt.strides(3)},
+      /* const size_t out_strides[NDIM + 2] = */
+      {out.strides(0), out.strides(1), out.strides(2), out.strides(3)},
+      /* const int groups = */ groups,
+      /* const bool flip = */ flip,
+  };
+  dispatch_conv_2D_gpu(s, d, in, wt, out, conv_params, copies);
+}
+void conv_3D_gpu(
+    const Stream& s,
+    metal::Device& d,
+    const array& in,
+    const array& wt,
+    array out,
+    const std::vector<int>& padding,
+    const std::vector<int>& wt_strides,
+    const std::vector<int>& wt_dilation,
+    const std::vector<int>& in_dilation,
+    bool flip,
+    std::vector<array>& copies) {
+  // Make conv params
+  MLXConvParams<3> conv_params{
+      /* const int  N = */ static_cast<int>(in.shape(0)),
+      /* const int  C = */ static_cast<int>(in.shape(4)),
+      /* const int  O = */ static_cast<int>(wt.shape(0)),
+      /* const int iS[NDIM] = */
+      {static_cast<int>(in.shape(1)),
+       static_cast<int>(in.shape(2)),
+       static_cast<int>(in.shape(3))},
+      /* const int wS[NDIM] = */
+      {static_cast<int>(wt.shape(1)),
+       static_cast<int>(wt.shape(2)),
+       static_cast<int>(wt.shape(3))},
+      /* const int oS[NDIM] = */
+      {static_cast<int>(out.shape(1)),
+       static_cast<int>(out.shape(2)),
+       static_cast<int>(out.shape(3))},
+      /* const int str[NDIM] = */ {wt_strides[0], wt_strides[1], wt_strides[2]},
+      /* const int pad[NDIM] = */ {padding[0], padding[1], padding[2]},
+      /* const int kdil[NDIM] = */
+      {wt_dilation[0], wt_dilation[1], wt_dilation[2]},
+      /* const int idil[NDIM] = */
+      {in_dilation[0], in_dilation[1], in_dilation[2]},
+      /* const size_t in_strides[NDIM + 2] = */
+      {in.strides()[0],
+       in.strides()[1],
+       in.strides()[2],
+       in.strides()[3],
+       in.strides()[4]},
+      /* const size_t wt_strides[NDIM + 2] = */
+      {wt.strides()[0],
+       wt.strides()[1],
+       wt.strides()[2],
+       wt.strides()[3],
+       wt.strides()[4]},
+      /* const size_t out_strides[NDIM + 2] = */
+      {out.strides()[0],
+       out.strides()[1],
+       out.strides()[2],
+       out.strides()[3],
+       out.strides()[4]},
+      /* const int groups = */ 1,
+      /* const bool flip = */ flip,
+  };
+  return explicit_gemm_conv_ND_gpu(s, d, in, wt, out, conv_params);
+}
+} // namespace
+void Convolution::eval_gpu(const std::vector<array>& inputs, array& out) {
+  out.set_data(allocator::malloc(out.nbytes()));
+  auto& s = stream();
+  auto& d = metal::device(s.device);
+  // Ensure contiguity
+  std::vector<array> copies;
+  auto in = inputs[0];
+  auto wt = inputs[1];
+  if (!in.flags().row_contiguous) {
+    in = contiguous_copy_gpu(in, s);
+    copies.push_back(in);
+  }
+  if (!wt.flags().row_contiguous) {
+    wt = contiguous_copy_gpu(wt, s);
+    copies.push_back(wt);
+  }
+  // 3D conv
+  if (out.ndim() == 5) {
+    conv_3D_gpu(
+        s,
+        d,
+        in,
+        wt,
+        out,
+        padding_lo_,
+        kernel_strides_,
+        kernel_dilation_,
+        input_dilation_,
+        flip_,
+        copies);
+  }
+  // 2D conv
+  else if (out.ndim() == 4) {
+    conv_2D_gpu(
+        s,
+        d,
+        in,
+        wt,
+        out,
+        padding_lo_,
+        kernel_strides_,
+        kernel_dilation_,
+        input_dilation_,
+        groups_,
+        flip_,
+        copies);
+  }
+  // 1D conv
+  else if (out.ndim() == 3) {
+    conv_1D_gpu(
+        s,
+        d,
+        in,
+        wt,
+        out,
+        padding_lo_,
+        kernel_strides_,
+        kernel_dilation_,
+        input_dilation_,
+        groups_,
+        flip_,
+        copies);
+  }
+  // Throw error
+  else {
+    throw std::invalid_argument(
+        "[Convolution::eval_gpu] Only supports 1D, 2D or 3D convolutions.");
+  }
+  // Record copies
+  d.add_temporaries(std::move(copies), s.index);
+}
+} // namespace mlx::core