RubyGems - mlx - Versions diffs - 1.0.0 - Mend

mlx 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mlx might be problematic. Click here for more details.

Files changed (914) hide show

checksums.yaml +7 -0
data/ext/mlx/CMakeLists.txt +7 -0
data/ext/mlx/Makefile +273 -0
data/ext/mlx/extconf.rb +94 -0
data/ext/mlx/mkmf.log +44 -0
data/ext/mlx/native.bundle +0 -0
data/ext/mlx/native.bundle.dSYM/Contents/Info.plist +20 -0
data/ext/mlx/native.bundle.dSYM/Contents/Resources/DWARF/native.bundle +0 -0
data/ext/mlx/native.bundle.dSYM/Contents/Resources/Relocations/aarch64/native.bundle.yml +5 -0
data/ext/mlx/native.cpp +8027 -0
data/ext/mlx/native.o +0 -0
data/lib/mlx/core.rb +1678 -0
data/lib/mlx/distributed_utils/common.rb +116 -0
data/lib/mlx/distributed_utils/config.rb +600 -0
data/lib/mlx/distributed_utils/launch.rb +490 -0
data/lib/mlx/extension.rb +24 -0
data/lib/mlx/nn/base.rb +388 -0
data/lib/mlx/nn/init.rb +140 -0
data/lib/mlx/nn/layers/activations.rb +336 -0
data/lib/mlx/nn/layers/base.rb +6 -0
data/lib/mlx/nn/layers/containers.rb +20 -0
data/lib/mlx/nn/layers/convolution.rb +120 -0
data/lib/mlx/nn/layers/convolution_transpose.rb +114 -0
data/lib/mlx/nn/layers/distributed.rb +309 -0
data/lib/mlx/nn/layers/dropout.rb +75 -0
data/lib/mlx/nn/layers/embedding.rb +28 -0
data/lib/mlx/nn/layers/linear.rb +79 -0
data/lib/mlx/nn/layers/normalization.rb +216 -0
data/lib/mlx/nn/layers/pooling.rb +167 -0
data/lib/mlx/nn/layers/positional_encoding.rb +126 -0
data/lib/mlx/nn/layers/quantized.rb +215 -0
data/lib/mlx/nn/layers/recurrent.rb +135 -0
data/lib/mlx/nn/layers/transformer.rb +330 -0
data/lib/mlx/nn/layers/upsample.rb +97 -0
data/lib/mlx/nn/layers.rb +18 -0
data/lib/mlx/nn/losses.rb +251 -0
data/lib/mlx/nn/utils.rb +167 -0
data/lib/mlx/nn.rb +12 -0
data/lib/mlx/optimizers/optimizers.rb +808 -0
data/lib/mlx/optimizers/schedulers.rb +62 -0
data/lib/mlx/optimizers.rb +9 -0
data/lib/mlx/utils.rb +171 -0
data/lib/mlx/version +1 -0
data/lib/mlx/version.rb +5 -0
data/lib/mlx.rb +64 -0
data/mlx/.clang-format +87 -0
data/mlx/.git +1 -0
data/mlx/.github/ISSUE_TEMPLATE/bug_report.md +28 -0
data/mlx/.github/actions/build-cuda-release/action.yml +31 -0
data/mlx/.github/actions/build-docs/action.yml +38 -0
data/mlx/.github/actions/build-linux/action.yml +38 -0
data/mlx/.github/actions/build-linux-release/action.yml +42 -0
data/mlx/.github/actions/build-macos/action.yml +80 -0
data/mlx/.github/actions/build-macos-release/action.yml +36 -0
data/mlx/.github/actions/build-windows/action.yml +26 -0
data/mlx/.github/actions/setup-linux/action.yml +93 -0
data/mlx/.github/actions/setup-macos/action.yml +24 -0
data/mlx/.github/actions/setup-windows/action.yml +42 -0
data/mlx/.github/actions/test-linux/action.yml +69 -0
data/mlx/.github/actions/test-windows/action.yml +20 -0
data/mlx/.github/dependabot.yml +6 -0
data/mlx/.github/pull_request_template.md +12 -0
data/mlx/.github/scripts/build-sanitizer-tests.sh +48 -0
data/mlx/.github/scripts/setup+build-cpp-linux-fedora-container.sh +27 -0
data/mlx/.github/workflows/build_and_test.yml +152 -0
data/mlx/.github/workflows/documentation.yml +28 -0
data/mlx/.github/workflows/nightly.yml +104 -0
data/mlx/.github/workflows/release.yml +256 -0
data/mlx/.gitignore +81 -0
data/mlx/.pre-commit-config.yaml +27 -0
data/mlx/ACKNOWLEDGMENTS.md +268 -0
data/mlx/CITATION.cff +24 -0
data/mlx/CMakeLists.txt +437 -0
data/mlx/CODE_OF_CONDUCT.md +132 -0
data/mlx/CONTRIBUTING.md +38 -0
data/mlx/LICENSE +21 -0
data/mlx/MANIFEST.in +6 -0
data/mlx/README.md +121 -0
data/mlx/benchmarks/cpp/CMakeLists.txt +11 -0
data/mlx/benchmarks/cpp/autograd.cpp +39 -0
data/mlx/benchmarks/cpp/compare_devices.cpp +27 -0
data/mlx/benchmarks/cpp/irregular_strides.cpp +201 -0
data/mlx/benchmarks/cpp/single_ops.cpp +288 -0
data/mlx/benchmarks/cpp/time_utils.h +39 -0
data/mlx/benchmarks/numpy/single_ops.py +39 -0
data/mlx/benchmarks/numpy/time_utils.py +20 -0
data/mlx/benchmarks/python/batch_matmul_bench.py +62 -0
data/mlx/benchmarks/python/blas/bench_gemm.py +191 -0
data/mlx/benchmarks/python/blas/bench_gemv.py +220 -0
data/mlx/benchmarks/python/comparative/README.md +15 -0
data/mlx/benchmarks/python/comparative/bench_mlx.py +519 -0
data/mlx/benchmarks/python/comparative/bench_torch.py +482 -0
data/mlx/benchmarks/python/comparative/compare.py +284 -0
data/mlx/benchmarks/python/compile_bench.py +107 -0
data/mlx/benchmarks/python/conv1d_bench.py +123 -0
data/mlx/benchmarks/python/conv2d_bench_cpu.py +127 -0
data/mlx/benchmarks/python/conv2d_train_bench_cpu.py +143 -0
data/mlx/benchmarks/python/conv2d_transpose_bench_cpu.py +129 -0
data/mlx/benchmarks/python/conv3d_bench_cpu.py +110 -0
data/mlx/benchmarks/python/conv3d_train_bench_cpu.py +143 -0
data/mlx/benchmarks/python/conv3d_transpose_bench_cpu.py +116 -0
data/mlx/benchmarks/python/conv_bench.py +135 -0
data/mlx/benchmarks/python/conv_transpose_bench.py +135 -0
data/mlx/benchmarks/python/conv_unaligned_bench.py +107 -0
data/mlx/benchmarks/python/distributed_bench.py +66 -0
data/mlx/benchmarks/python/einsum_bench.py +84 -0
data/mlx/benchmarks/python/fft_bench.py +118 -0
data/mlx/benchmarks/python/gather_bench.py +52 -0
data/mlx/benchmarks/python/gather_mm_bench.py +74 -0
data/mlx/benchmarks/python/gather_qmm_bench.py +84 -0
data/mlx/benchmarks/python/hadamard_bench.py +70 -0
data/mlx/benchmarks/python/large_gemm_bench.py +119 -0
data/mlx/benchmarks/python/layer_norm_bench.py +82 -0
data/mlx/benchmarks/python/masked_scatter.py +212 -0
data/mlx/benchmarks/python/rms_norm_bench.py +63 -0
data/mlx/benchmarks/python/rope_bench.py +35 -0
data/mlx/benchmarks/python/scatter_bench.py +96 -0
data/mlx/benchmarks/python/sdpa_bench.py +223 -0
data/mlx/benchmarks/python/sdpa_vector_bench.py +95 -0
data/mlx/benchmarks/python/single_ops.py +132 -0
data/mlx/benchmarks/python/synchronize_bench.py +55 -0
data/mlx/benchmarks/python/time_utils.py +38 -0
data/mlx/cmake/FindCUDNN.cmake +177 -0
data/mlx/cmake/FindNCCL.cmake +54 -0
data/mlx/cmake/Findnvpl.cmake +3 -0
data/mlx/cmake/extension.cmake +50 -0
data/mlx/docs/.clang-format +2 -0
data/mlx/docs/.gitignore +3 -0
data/mlx/docs/.nojekyll +0 -0
data/mlx/docs/Doxyfile +51 -0
data/mlx/docs/Makefile +18 -0
data/mlx/docs/README.md +54 -0
data/mlx/docs/index.html +1 -0
data/mlx/docs/requirements.txt +5 -0
data/mlx/docs/src/_static/distributed/m3-ultra-mesh-broken.png +0 -0
data/mlx/docs/src/_static/distributed/m3-ultra-mesh.png +0 -0
data/mlx/docs/src/_static/metal_debugger/capture.png +0 -0
data/mlx/docs/src/_static/metal_debugger/schema.png +0 -0
data/mlx/docs/src/_static/mlx_logo.png +0 -0
data/mlx/docs/src/_static/mlx_logo_dark.png +0 -0
data/mlx/docs/src/_static/tp_inference/all-to-sharded-linear.png +0 -0
data/mlx/docs/src/_static/tp_inference/column-row-tp.png +0 -0
data/mlx/docs/src/_static/tp_inference/llama-transformer.png +0 -0
data/mlx/docs/src/_static/tp_inference/sharded-to-all-linear.png +0 -0
data/mlx/docs/src/_templates/module-base-class.rst +33 -0
data/mlx/docs/src/_templates/nn-module-template.rst +20 -0
data/mlx/docs/src/_templates/optimizers-template.rst +20 -0
data/mlx/docs/src/conf.py +99 -0
data/mlx/docs/src/cpp/ops.rst +7 -0
data/mlx/docs/src/dev/custom_metal_kernels.rst +445 -0
data/mlx/docs/src/dev/extensions.rst +811 -0
data/mlx/docs/src/dev/metal_debugger.rst +68 -0
data/mlx/docs/src/dev/metal_logging.rst +40 -0
data/mlx/docs/src/dev/mlx_in_cpp.rst +121 -0
data/mlx/docs/src/examples/data_parallelism.rst +91 -0
data/mlx/docs/src/examples/linear_regression.rst +77 -0
data/mlx/docs/src/examples/llama-inference.rst +382 -0
data/mlx/docs/src/examples/mlp.rst +134 -0
data/mlx/docs/src/examples/tensor_parallelism.rst +239 -0
data/mlx/docs/src/index.rst +96 -0
data/mlx/docs/src/install.rst +340 -0
data/mlx/docs/src/python/array.rst +65 -0
data/mlx/docs/src/python/cuda.rst +9 -0
data/mlx/docs/src/python/data_types.rst +78 -0
data/mlx/docs/src/python/devices_and_streams.rst +21 -0
data/mlx/docs/src/python/distributed.rst +22 -0
data/mlx/docs/src/python/export.rst +14 -0
data/mlx/docs/src/python/fast.rst +16 -0
data/mlx/docs/src/python/fft.rst +24 -0
data/mlx/docs/src/python/linalg.rst +27 -0
data/mlx/docs/src/python/memory_management.rst +16 -0
data/mlx/docs/src/python/metal.rst +12 -0
data/mlx/docs/src/python/nn/distributed.rst +30 -0
data/mlx/docs/src/python/nn/functions.rst +40 -0
data/mlx/docs/src/python/nn/init.rst +45 -0
data/mlx/docs/src/python/nn/layers.rst +74 -0
data/mlx/docs/src/python/nn/losses.rst +25 -0
data/mlx/docs/src/python/nn/module.rst +38 -0
data/mlx/docs/src/python/nn.rst +186 -0
data/mlx/docs/src/python/ops.rst +184 -0
data/mlx/docs/src/python/optimizers/common_optimizers.rst +22 -0
data/mlx/docs/src/python/optimizers/optimizer.rst +23 -0
data/mlx/docs/src/python/optimizers/schedulers.rst +15 -0
data/mlx/docs/src/python/optimizers.rst +78 -0
data/mlx/docs/src/python/random.rst +48 -0
data/mlx/docs/src/python/transforms.rst +22 -0
data/mlx/docs/src/python/tree_utils.rst +23 -0
data/mlx/docs/src/usage/compile.rst +516 -0
data/mlx/docs/src/usage/distributed.rst +572 -0
data/mlx/docs/src/usage/export.rst +288 -0
data/mlx/docs/src/usage/function_transforms.rst +191 -0
data/mlx/docs/src/usage/indexing.rst +194 -0
data/mlx/docs/src/usage/launching_distributed.rst +234 -0
data/mlx/docs/src/usage/lazy_evaluation.rst +144 -0
data/mlx/docs/src/usage/numpy.rst +124 -0
data/mlx/docs/src/usage/quick_start.rst +67 -0
data/mlx/docs/src/usage/saving_and_loading.rst +81 -0
data/mlx/docs/src/usage/unified_memory.rst +78 -0
data/mlx/docs/src/usage/using_streams.rst +18 -0
data/mlx/examples/cmake_project/CMakeLists.txt +22 -0
data/mlx/examples/cmake_project/README.md +26 -0
data/mlx/examples/cmake_project/example.cpp +14 -0
data/mlx/examples/cpp/CMakeLists.txt +12 -0
data/mlx/examples/cpp/distributed.cpp +22 -0
data/mlx/examples/cpp/linear_regression.cpp +54 -0
data/mlx/examples/cpp/logistic_regression.cpp +54 -0
data/mlx/examples/cpp/metal_capture.cpp +31 -0
data/mlx/examples/cpp/timer.h +20 -0
data/mlx/examples/cpp/tutorial.cpp +99 -0
data/mlx/examples/export/CMakeLists.txt +22 -0
data/mlx/examples/export/README.md +49 -0
data/mlx/examples/export/eval_mlp.cpp +25 -0
data/mlx/examples/export/eval_mlp.py +52 -0
data/mlx/examples/export/train_mlp.cpp +35 -0
data/mlx/examples/export/train_mlp.py +76 -0
data/mlx/examples/extensions/CMakeLists.txt +78 -0
data/mlx/examples/extensions/README.md +24 -0
data/mlx/examples/extensions/axpby/axpby.cpp +306 -0
data/mlx/examples/extensions/axpby/axpby.h +90 -0
data/mlx/examples/extensions/axpby/axpby.metal +47 -0
data/mlx/examples/extensions/bindings.cpp +39 -0
data/mlx/examples/extensions/mlx_sample_extensions/__init__.py +5 -0
data/mlx/examples/extensions/pyproject.toml +8 -0
data/mlx/examples/extensions/requirements.txt +4 -0
data/mlx/examples/extensions/setup.py +18 -0
data/mlx/examples/extensions/test.py +12 -0
data/mlx/examples/python/linear_regression.py +46 -0
data/mlx/examples/python/logistic_regression.py +49 -0
data/mlx/examples/python/qqmm.py +117 -0
data/mlx/mlx/3rdparty/.clang-format +2 -0
data/mlx/mlx/3rdparty/pocketfft.h +3581 -0
data/mlx/mlx/CMakeLists.txt +107 -0
data/mlx/mlx/allocator.h +75 -0
data/mlx/mlx/api.h +29 -0
data/mlx/mlx/array.cpp +354 -0
data/mlx/mlx/array.h +647 -0
data/mlx/mlx/backend/common/CMakeLists.txt +9 -0
data/mlx/mlx/backend/common/binary.h +97 -0
data/mlx/mlx/backend/common/broadcasting.cpp +24 -0
data/mlx/mlx/backend/common/broadcasting.h +11 -0
data/mlx/mlx/backend/common/buffer_cache.h +158 -0
data/mlx/mlx/backend/common/common.cpp +305 -0
data/mlx/mlx/backend/common/compiled.cpp +243 -0
data/mlx/mlx/backend/common/compiled.h +77 -0
data/mlx/mlx/backend/common/copy.h +50 -0
data/mlx/mlx/backend/common/hadamard.h +109 -0
data/mlx/mlx/backend/common/load.cpp +57 -0
data/mlx/mlx/backend/common/matmul.h +67 -0
data/mlx/mlx/backend/common/reduce.cpp +154 -0
data/mlx/mlx/backend/common/reduce.h +59 -0
data/mlx/mlx/backend/common/slicing.cpp +71 -0
data/mlx/mlx/backend/common/slicing.h +20 -0
data/mlx/mlx/backend/common/ternary.h +85 -0
data/mlx/mlx/backend/common/unary.h +29 -0
data/mlx/mlx/backend/common/utils.cpp +231 -0
data/mlx/mlx/backend/common/utils.h +205 -0
data/mlx/mlx/backend/cpu/CMakeLists.txt +88 -0
data/mlx/mlx/backend/cpu/arange.h +28 -0
data/mlx/mlx/backend/cpu/arg_reduce.cpp +124 -0
data/mlx/mlx/backend/cpu/binary.cpp +269 -0
data/mlx/mlx/backend/cpu/binary.h +517 -0
data/mlx/mlx/backend/cpu/binary_ops.h +98 -0
data/mlx/mlx/backend/cpu/binary_two.h +166 -0
data/mlx/mlx/backend/cpu/cholesky.cpp +85 -0
data/mlx/mlx/backend/cpu/compiled.cpp +357 -0
data/mlx/mlx/backend/cpu/compiled_preamble.h +12 -0
data/mlx/mlx/backend/cpu/conv.cpp +1351 -0
data/mlx/mlx/backend/cpu/copy.cpp +386 -0
data/mlx/mlx/backend/cpu/copy.h +36 -0
data/mlx/mlx/backend/cpu/device_info.cpp +113 -0
data/mlx/mlx/backend/cpu/device_info.h +28 -0
data/mlx/mlx/backend/cpu/distributed.cpp +103 -0
data/mlx/mlx/backend/cpu/eig.cpp +281 -0
data/mlx/mlx/backend/cpu/eigh.cpp +241 -0
data/mlx/mlx/backend/cpu/encoder.cpp +16 -0
data/mlx/mlx/backend/cpu/encoder.h +67 -0
data/mlx/mlx/backend/cpu/eval.cpp +40 -0
data/mlx/mlx/backend/cpu/eval.h +12 -0
data/mlx/mlx/backend/cpu/fft.cpp +120 -0
data/mlx/mlx/backend/cpu/gemm.h +26 -0
data/mlx/mlx/backend/cpu/gemms/bnns.cpp +214 -0
data/mlx/mlx/backend/cpu/gemms/cblas.cpp +134 -0
data/mlx/mlx/backend/cpu/gemms/simd_bf16.cpp +45 -0
data/mlx/mlx/backend/cpu/gemms/simd_fp16.cpp +45 -0
data/mlx/mlx/backend/cpu/gemms/simd_gemm.h +139 -0
data/mlx/mlx/backend/cpu/hadamard.cpp +121 -0
data/mlx/mlx/backend/cpu/indexing.cpp +854 -0
data/mlx/mlx/backend/cpu/inverse.cpp +160 -0
data/mlx/mlx/backend/cpu/jit_compiler.cpp +166 -0
data/mlx/mlx/backend/cpu/jit_compiler.h +20 -0
data/mlx/mlx/backend/cpu/lapack.h +80 -0
data/mlx/mlx/backend/cpu/logsumexp.cpp +139 -0
data/mlx/mlx/backend/cpu/luf.cpp +120 -0
data/mlx/mlx/backend/cpu/make_compiled_preamble.ps1 +38 -0
data/mlx/mlx/backend/cpu/make_compiled_preamble.sh +41 -0
data/mlx/mlx/backend/cpu/masked_mm.cpp +608 -0
data/mlx/mlx/backend/cpu/matmul.cpp +166 -0
data/mlx/mlx/backend/cpu/primitives.cpp +478 -0
data/mlx/mlx/backend/cpu/qrf.cpp +147 -0
data/mlx/mlx/backend/cpu/quantized.cpp +1370 -0
data/mlx/mlx/backend/cpu/reduce.cpp +587 -0
data/mlx/mlx/backend/cpu/scan.cpp +338 -0
data/mlx/mlx/backend/cpu/select.cpp +95 -0
data/mlx/mlx/backend/cpu/simd/accelerate_fp16_simd.h +56 -0
data/mlx/mlx/backend/cpu/simd/accelerate_simd.h +329 -0
data/mlx/mlx/backend/cpu/simd/base_simd.h +319 -0
data/mlx/mlx/backend/cpu/simd/math.h +193 -0
data/mlx/mlx/backend/cpu/simd/neon_fp16_simd.h +212 -0
data/mlx/mlx/backend/cpu/simd/simd.h +4 -0
data/mlx/mlx/backend/cpu/simd/type.h +11 -0
data/mlx/mlx/backend/cpu/slicing.h +21 -0
data/mlx/mlx/backend/cpu/softmax.cpp +170 -0
data/mlx/mlx/backend/cpu/sort.cpp +481 -0
data/mlx/mlx/backend/cpu/svd.cpp +289 -0
data/mlx/mlx/backend/cpu/ternary.h +154 -0
data/mlx/mlx/backend/cpu/threefry.cpp +31 -0
data/mlx/mlx/backend/cpu/threefry.h +21 -0
data/mlx/mlx/backend/cpu/unary.cpp +238 -0
data/mlx/mlx/backend/cpu/unary.h +281 -0
data/mlx/mlx/backend/cpu/unary_ops.h +175 -0
data/mlx/mlx/backend/cuda/CMakeLists.txt +265 -0
data/mlx/mlx/backend/cuda/allocator.cpp +451 -0
data/mlx/mlx/backend/cuda/allocator.h +94 -0
data/mlx/mlx/backend/cuda/arange.cu +68 -0
data/mlx/mlx/backend/cuda/arg_reduce.cu +189 -0
data/mlx/mlx/backend/cuda/bin2h.cmake +150 -0
data/mlx/mlx/backend/cuda/binary/CMakeLists.txt +21 -0
data/mlx/mlx/backend/cuda/binary/add.cu +7 -0
data/mlx/mlx/backend/cuda/binary/arctan2.cu +7 -0
data/mlx/mlx/backend/cuda/binary/binary.cuh +383 -0
data/mlx/mlx/backend/cuda/binary/bitwise_binary.cu +27 -0
data/mlx/mlx/backend/cuda/binary/divide.cu +7 -0
data/mlx/mlx/backend/cuda/binary/equal.cu +15 -0
data/mlx/mlx/backend/cuda/binary/greater.cu +7 -0
data/mlx/mlx/backend/cuda/binary/greater_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/less.cu +7 -0
data/mlx/mlx/backend/cuda/binary/less_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/log_add_exp.cu +7 -0
data/mlx/mlx/backend/cuda/binary/logical_and.cu +7 -0
data/mlx/mlx/backend/cuda/binary/logical_or.cu +7 -0
data/mlx/mlx/backend/cuda/binary/maximum.cu +7 -0
data/mlx/mlx/backend/cuda/binary/minimum.cu +7 -0
data/mlx/mlx/backend/cuda/binary/multiply.cu +7 -0
data/mlx/mlx/backend/cuda/binary/not_equal.cu +7 -0
data/mlx/mlx/backend/cuda/binary/power.cu +7 -0
data/mlx/mlx/backend/cuda/binary/remainder.cu +7 -0
data/mlx/mlx/backend/cuda/binary/subtract.cu +7 -0
data/mlx/mlx/backend/cuda/binary_two.cu +412 -0
data/mlx/mlx/backend/cuda/compiled.cpp +357 -0
data/mlx/mlx/backend/cuda/conv/conv.h +126 -0
data/mlx/mlx/backend/cuda/conv/gemm_conv.cu +217 -0
data/mlx/mlx/backend/cuda/conv/gemm_grouped_conv.cu +231 -0
data/mlx/mlx/backend/cuda/conv.cpp +403 -0
data/mlx/mlx/backend/cuda/copy/copy.cuh +55 -0
data/mlx/mlx/backend/cuda/copy/copy_contiguous.cu +88 -0
data/mlx/mlx/backend/cuda/copy/copy_general.cu +171 -0
data/mlx/mlx/backend/cuda/copy/copy_general_dynamic.cu +118 -0
data/mlx/mlx/backend/cuda/copy/copy_general_input.cu +229 -0
data/mlx/mlx/backend/cuda/copy.cu +132 -0
data/mlx/mlx/backend/cuda/cublas_utils.cpp +222 -0
data/mlx/mlx/backend/cuda/cublas_utils.h +95 -0
data/mlx/mlx/backend/cuda/cuda.h +21 -0
data/mlx/mlx/backend/cuda/cuda_utils.h +90 -0
data/mlx/mlx/backend/cuda/cudnn_utils.cpp +133 -0
data/mlx/mlx/backend/cuda/cudnn_utils.h +187 -0
data/mlx/mlx/backend/cuda/custom_kernel.cpp +379 -0
data/mlx/mlx/backend/cuda/cutlass_utils.cuh +46 -0
data/mlx/mlx/backend/cuda/delayload.cpp +80 -0
data/mlx/mlx/backend/cuda/device/atomic_ops.cuh +63 -0
data/mlx/mlx/backend/cuda/device/binary_ops.cuh +300 -0
data/mlx/mlx/backend/cuda/device/cast_op.cuh +118 -0
data/mlx/mlx/backend/cuda/device/complex.cuh +60 -0
data/mlx/mlx/backend/cuda/device/config.h +12 -0
data/mlx/mlx/backend/cuda/device/fp16_math.cuh +96 -0
data/mlx/mlx/backend/cuda/device/gather.cuh +53 -0
data/mlx/mlx/backend/cuda/device/gather_axis.cuh +65 -0
data/mlx/mlx/backend/cuda/device/indexing.cuh +30 -0
data/mlx/mlx/backend/cuda/device/scatter.cuh +68 -0
data/mlx/mlx/backend/cuda/device/scatter_axis.cuh +67 -0
data/mlx/mlx/backend/cuda/device/scatter_ops.cuh +44 -0
data/mlx/mlx/backend/cuda/device/ternary_ops.cuh +13 -0
data/mlx/mlx/backend/cuda/device/unary_ops.cuh +350 -0
data/mlx/mlx/backend/cuda/device/utils.cuh +464 -0
data/mlx/mlx/backend/cuda/device.cpp +522 -0
data/mlx/mlx/backend/cuda/device.h +195 -0
data/mlx/mlx/backend/cuda/device_info.cpp +232 -0
data/mlx/mlx/backend/cuda/distributed.cu +121 -0
data/mlx/mlx/backend/cuda/eval.cpp +66 -0
data/mlx/mlx/backend/cuda/event.cu +415 -0
data/mlx/mlx/backend/cuda/event.h +79 -0
data/mlx/mlx/backend/cuda/fence.cpp +42 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm.cpp +233 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm.h +114 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm_batched_12_0.cpp +77 -0
data/mlx/mlx/backend/cuda/gemms/cublas_gemm_batched_12_9.cu +329 -0
data/mlx/mlx/backend/cuda/gemms/gemv.cu +327 -0
data/mlx/mlx/backend/cuda/gemms/gemv.h +34 -0
data/mlx/mlx/backend/cuda/gemms/grouped_gemm.h +25 -0
data/mlx/mlx/backend/cuda/gemms/grouped_gemm_unaligned.cu +358 -0
data/mlx/mlx/backend/cuda/indexing.cpp +434 -0
data/mlx/mlx/backend/cuda/jit_module.cpp +443 -0
data/mlx/mlx/backend/cuda/jit_module.h +120 -0
data/mlx/mlx/backend/cuda/kernel_utils.cu +52 -0
data/mlx/mlx/backend/cuda/kernel_utils.cuh +148 -0
data/mlx/mlx/backend/cuda/layer_norm.cu +417 -0
data/mlx/mlx/backend/cuda/load.cpp +60 -0
data/mlx/mlx/backend/cuda/logsumexp.cu +161 -0
data/mlx/mlx/backend/cuda/lru_cache.h +190 -0
data/mlx/mlx/backend/cuda/matmul.cpp +373 -0
data/mlx/mlx/backend/cuda/no_cuda.cpp +47 -0
data/mlx/mlx/backend/cuda/primitives.cpp +46 -0
data/mlx/mlx/backend/cuda/quantized/affine_quantize.cu +329 -0
data/mlx/mlx/backend/cuda/quantized/convert_fp8.cu +19 -0
data/mlx/mlx/backend/cuda/quantized/cublas_qqmm.cpp +206 -0
data/mlx/mlx/backend/cuda/quantized/cublas_qqmm.h +88 -0
data/mlx/mlx/backend/cuda/quantized/cuda_fp4.h +100 -0
data/mlx/mlx/backend/cuda/quantized/fp_quantize.cu +496 -0
data/mlx/mlx/backend/cuda/quantized/mxfp8_quantize.cuh +32 -0
data/mlx/mlx/backend/cuda/quantized/no_qqmm_impl.cpp +26 -0
data/mlx/mlx/backend/cuda/quantized/nvfp4_quantize.cuh +334 -0
data/mlx/mlx/backend/cuda/quantized/qmv.cu +304 -0
data/mlx/mlx/backend/cuda/quantized/qmv.h +21 -0
data/mlx/mlx/backend/cuda/quantized/qqmm.cpp +158 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_impl.cpp +50 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_impl.h +26 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_utils.cu +227 -0
data/mlx/mlx/backend/cuda/quantized/qqmm_utils.h +30 -0
data/mlx/mlx/backend/cuda/quantized/quantized.cpp +85 -0
data/mlx/mlx/backend/cuda/quantized/quantized.h +53 -0
data/mlx/mlx/backend/cuda/quantized/quantized_utils.cuh +88 -0
data/mlx/mlx/backend/cuda/quantized/quantized_utils.h +50 -0
data/mlx/mlx/backend/cuda/random.cu +202 -0
data/mlx/mlx/backend/cuda/reduce/all_reduce.cu +159 -0
data/mlx/mlx/backend/cuda/reduce/col_reduce.cu +510 -0
data/mlx/mlx/backend/cuda/reduce/init_reduce.cu +50 -0
data/mlx/mlx/backend/cuda/reduce/reduce.cuh +71 -0
data/mlx/mlx/backend/cuda/reduce/reduce_ops.cuh +211 -0
data/mlx/mlx/backend/cuda/reduce/reduce_utils.cuh +145 -0
data/mlx/mlx/backend/cuda/reduce/row_reduce.cu +361 -0
data/mlx/mlx/backend/cuda/reduce.cu +73 -0
data/mlx/mlx/backend/cuda/rms_norm.cu +536 -0
data/mlx/mlx/backend/cuda/rope.cu +429 -0
data/mlx/mlx/backend/cuda/scaled_dot_product_attention.cpp +681 -0
data/mlx/mlx/backend/cuda/scaled_dot_product_attention.cu +796 -0
data/mlx/mlx/backend/cuda/scan.cu +468 -0
data/mlx/mlx/backend/cuda/slicing.cpp +111 -0
data/mlx/mlx/backend/cuda/softmax.cu +162 -0
data/mlx/mlx/backend/cuda/sort.cu +1076 -0
data/mlx/mlx/backend/cuda/steel/defines.cuh +9 -0
data/mlx/mlx/backend/cuda/steel/gemm.cuh +101 -0
data/mlx/mlx/backend/cuda/steel/mma.cuh +117 -0
data/mlx/mlx/backend/cuda/steel/tiles.cuh +450 -0
data/mlx/mlx/backend/cuda/steel/utils.cuh +89 -0
data/mlx/mlx/backend/cuda/ternary.cu +271 -0
data/mlx/mlx/backend/cuda/unary/CMakeLists.txt +34 -0
data/mlx/mlx/backend/cuda/unary/abs.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arccos.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arccosh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arcsin.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arcsinh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arctan.cu +7 -0
data/mlx/mlx/backend/cuda/unary/arctanh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/bitwise_invert.cu +7 -0
data/mlx/mlx/backend/cuda/unary/ceil.cu +7 -0
data/mlx/mlx/backend/cuda/unary/conjugate.cu +7 -0
data/mlx/mlx/backend/cuda/unary/cos.cu +7 -0
data/mlx/mlx/backend/cuda/unary/cosh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/erf.cu +7 -0
data/mlx/mlx/backend/cuda/unary/erf_inv.cu +7 -0
data/mlx/mlx/backend/cuda/unary/exp.cu +7 -0
data/mlx/mlx/backend/cuda/unary/expm1.cu +7 -0
data/mlx/mlx/backend/cuda/unary/floor.cu +7 -0
data/mlx/mlx/backend/cuda/unary/imag.cu +7 -0
data/mlx/mlx/backend/cuda/unary/log.cu +21 -0
data/mlx/mlx/backend/cuda/unary/log1p.cu +7 -0
data/mlx/mlx/backend/cuda/unary/logical_not.cu +7 -0
data/mlx/mlx/backend/cuda/unary/negative.cu +7 -0
data/mlx/mlx/backend/cuda/unary/real.cu +7 -0
data/mlx/mlx/backend/cuda/unary/round.cu +18 -0
data/mlx/mlx/backend/cuda/unary/sigmoid.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sign.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sin.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sinh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/sqrt.cu +15 -0
data/mlx/mlx/backend/cuda/unary/square.cu +7 -0
data/mlx/mlx/backend/cuda/unary/tan.cu +7 -0
data/mlx/mlx/backend/cuda/unary/tanh.cu +7 -0
data/mlx/mlx/backend/cuda/unary/unary.cuh +224 -0
data/mlx/mlx/backend/cuda/utils.cpp +116 -0
data/mlx/mlx/backend/cuda/utils.h +49 -0
data/mlx/mlx/backend/cuda/vector_types.cuh +48 -0
data/mlx/mlx/backend/cuda/worker.cpp +79 -0
data/mlx/mlx/backend/cuda/worker.h +55 -0
data/mlx/mlx/backend/gpu/CMakeLists.txt +5 -0
data/mlx/mlx/backend/gpu/copy.cpp +89 -0
data/mlx/mlx/backend/gpu/copy.h +57 -0
data/mlx/mlx/backend/gpu/device_info.h +36 -0
data/mlx/mlx/backend/gpu/eval.h +18 -0
data/mlx/mlx/backend/gpu/primitives.cpp +307 -0
data/mlx/mlx/backend/gpu/slicing.cpp +44 -0
data/mlx/mlx/backend/gpu/slicing.h +36 -0
data/mlx/mlx/backend/metal/CMakeLists.txt +144 -0
data/mlx/mlx/backend/metal/allocator.cpp +279 -0
data/mlx/mlx/backend/metal/allocator.h +79 -0
data/mlx/mlx/backend/metal/binary.cpp +257 -0
data/mlx/mlx/backend/metal/binary.h +33 -0
data/mlx/mlx/backend/metal/compiled.cpp +471 -0
data/mlx/mlx/backend/metal/conv.cpp +1118 -0
data/mlx/mlx/backend/metal/copy.cpp +235 -0
data/mlx/mlx/backend/metal/custom_kernel.cpp +430 -0
data/mlx/mlx/backend/metal/device.cpp +816 -0
data/mlx/mlx/backend/metal/device.h +289 -0
data/mlx/mlx/backend/metal/device_info.cpp +58 -0
data/mlx/mlx/backend/metal/distributed.cpp +38 -0
data/mlx/mlx/backend/metal/eval.cpp +97 -0
data/mlx/mlx/backend/metal/event.cpp +62 -0
data/mlx/mlx/backend/metal/fence.cpp +162 -0
data/mlx/mlx/backend/metal/fft.cpp +807 -0
data/mlx/mlx/backend/metal/hadamard.cpp +198 -0
data/mlx/mlx/backend/metal/indexing.cpp +727 -0
data/mlx/mlx/backend/metal/jit/includes.h +58 -0
data/mlx/mlx/backend/metal/jit/indexing.h +76 -0
data/mlx/mlx/backend/metal/jit_kernels.cpp +1118 -0
data/mlx/mlx/backend/metal/kernels/CMakeLists.txt +193 -0
data/mlx/mlx/backend/metal/kernels/arange.h +9 -0
data/mlx/mlx/backend/metal/kernels/arange.metal +20 -0
data/mlx/mlx/backend/metal/kernels/arg_reduce.metal +182 -0
data/mlx/mlx/backend/metal/kernels/atomic.h +345 -0
data/mlx/mlx/backend/metal/kernels/bf16.h +16 -0
data/mlx/mlx/backend/metal/kernels/bf16_math.h +380 -0
data/mlx/mlx/backend/metal/kernels/binary.h +199 -0
data/mlx/mlx/backend/metal/kernels/binary.metal +109 -0
data/mlx/mlx/backend/metal/kernels/binary_ops.h +330 -0
data/mlx/mlx/backend/metal/kernels/binary_two.h +244 -0
data/mlx/mlx/backend/metal/kernels/binary_two.metal +54 -0
data/mlx/mlx/backend/metal/kernels/cexpf.h +134 -0
data/mlx/mlx/backend/metal/kernels/complex.h +173 -0
data/mlx/mlx/backend/metal/kernels/conv.metal +701 -0
data/mlx/mlx/backend/metal/kernels/copy.h +276 -0
data/mlx/mlx/backend/metal/kernels/copy.metal +75 -0
data/mlx/mlx/backend/metal/kernels/defines.h +24 -0
data/mlx/mlx/backend/metal/kernels/erf.h +69 -0
data/mlx/mlx/backend/metal/kernels/expm1f.h +90 -0
data/mlx/mlx/backend/metal/kernels/fence.metal +52 -0
data/mlx/mlx/backend/metal/kernels/fft/radix.h +328 -0
data/mlx/mlx/backend/metal/kernels/fft/readwrite.h +624 -0
data/mlx/mlx/backend/metal/kernels/fft.h +486 -0
data/mlx/mlx/backend/metal/kernels/fft.metal +67 -0
data/mlx/mlx/backend/metal/kernels/fp4.h +48 -0
data/mlx/mlx/backend/metal/kernels/fp8.h +80 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized.h +1850 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized.metal +153 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized_nax.h +1044 -0
data/mlx/mlx/backend/metal/kernels/fp_quantized_nax.metal +79 -0
data/mlx/mlx/backend/metal/kernels/gemv.metal +868 -0
data/mlx/mlx/backend/metal/kernels/gemv_masked.h +827 -0
data/mlx/mlx/backend/metal/kernels/gemv_masked.metal +76 -0
data/mlx/mlx/backend/metal/kernels/hadamard.h +182 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather.h +51 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather_axis.h +44 -0
data/mlx/mlx/backend/metal/kernels/indexing/gather_front.h +24 -0
data/mlx/mlx/backend/metal/kernels/indexing/indexing.h +23 -0
data/mlx/mlx/backend/metal/kernels/indexing/masked_scatter.h +41 -0
data/mlx/mlx/backend/metal/kernels/indexing/scatter.h +59 -0
data/mlx/mlx/backend/metal/kernels/indexing/scatter_axis.h +52 -0
data/mlx/mlx/backend/metal/kernels/layer_norm.metal +433 -0
data/mlx/mlx/backend/metal/kernels/logging.h +26 -0
data/mlx/mlx/backend/metal/kernels/logsumexp.h +140 -0
data/mlx/mlx/backend/metal/kernels/logsumexp.metal +18 -0
data/mlx/mlx/backend/metal/kernels/quantized.h +2508 -0
data/mlx/mlx/backend/metal/kernels/quantized.metal +144 -0
data/mlx/mlx/backend/metal/kernels/quantized_nax.h +1705 -0
data/mlx/mlx/backend/metal/kernels/quantized_nax.metal +106 -0
data/mlx/mlx/backend/metal/kernels/quantized_utils.h +90 -0
data/mlx/mlx/backend/metal/kernels/random.metal +103 -0
data/mlx/mlx/backend/metal/kernels/reduce.h +5 -0
data/mlx/mlx/backend/metal/kernels/reduce.metal +169 -0
data/mlx/mlx/backend/metal/kernels/reduce_utils.h +6 -0
data/mlx/mlx/backend/metal/kernels/reduction/ops.h +275 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_all.h +66 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_col.h +398 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_init.h +8 -0
data/mlx/mlx/backend/metal/kernels/reduction/reduce_row.h +369 -0
data/mlx/mlx/backend/metal/kernels/rms_norm.metal +391 -0
data/mlx/mlx/backend/metal/kernels/rope.metal +229 -0
data/mlx/mlx/backend/metal/kernels/scaled_dot_product_attention.metal +44 -0
data/mlx/mlx/backend/metal/kernels/scan.h +514 -0
data/mlx/mlx/backend/metal/kernels/scan.metal +109 -0
data/mlx/mlx/backend/metal/kernels/sdpa_vector.h +394 -0
data/mlx/mlx/backend/metal/kernels/softmax.h +190 -0
data/mlx/mlx/backend/metal/kernels/softmax.metal +24 -0
data/mlx/mlx/backend/metal/kernels/sort.h +719 -0
data/mlx/mlx/backend/metal/kernels/sort.metal +80 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/attn.h +296 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention.h +471 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention.metal +27 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention_nax.h +481 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention_nax.metal +28 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/loader.h +264 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/mma.h +750 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/nax.h +1076 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/params.h +44 -0
data/mlx/mlx/backend/metal/kernels/steel/attn/transforms.h +71 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/conv.h +13 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv.h +176 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv.metal +56 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_general.h +225 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_general.metal +47 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loader.h +6 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_l.h +451 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_n.h +319 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/loaders/loader_general.h +381 -0
data/mlx/mlx/backend/metal/kernels/steel/conv/params.h +62 -0
data/mlx/mlx/backend/metal/kernels/steel/defines.h +7 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/gemm.h +295 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/gemm_nax.h +157 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused.h +346 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused.metal +34 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused_nax.h +219 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused_nax.metal +30 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather.h +459 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather.metal +59 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather_nax.h +143 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather_nax.metal +37 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_masked.h +719 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_masked.metal +76 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_segmented.h +266 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_segmented.metal +43 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk.h +227 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk.metal +76 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk_nax.h +152 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk_nax.metal +30 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/loader.h +137 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/mma.h +1146 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/nax.h +1084 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/params.h +65 -0
data/mlx/mlx/backend/metal/kernels/steel/gemm/transforms.h +72 -0
data/mlx/mlx/backend/metal/kernels/steel/utils/integral_constant.h +134 -0
data/mlx/mlx/backend/metal/kernels/steel/utils/type_traits.h +55 -0
data/mlx/mlx/backend/metal/kernels/steel/utils.h +42 -0
data/mlx/mlx/backend/metal/kernels/ternary.h +145 -0
data/mlx/mlx/backend/metal/kernels/ternary.metal +48 -0
data/mlx/mlx/backend/metal/kernels/ternary_ops.h +10 -0
data/mlx/mlx/backend/metal/kernels/unary.h +63 -0
data/mlx/mlx/backend/metal/kernels/unary.metal +115 -0
data/mlx/mlx/backend/metal/kernels/unary_ops.h +454 -0
data/mlx/mlx/backend/metal/kernels/utils.h +445 -0
data/mlx/mlx/backend/metal/kernels.h +375 -0
data/mlx/mlx/backend/metal/logsumexp.cpp +95 -0
data/mlx/mlx/backend/metal/make_compiled_preamble.sh +120 -0
data/mlx/mlx/backend/metal/matmul.cpp +2572 -0
data/mlx/mlx/backend/metal/matmul.h +144 -0
data/mlx/mlx/backend/metal/metal.cpp +50 -0
data/mlx/mlx/backend/metal/metal.h +25 -0
data/mlx/mlx/backend/metal/no_metal.cpp +42 -0
data/mlx/mlx/backend/metal/nojit_kernels.cpp +414 -0
data/mlx/mlx/backend/metal/normalization.cpp +433 -0
data/mlx/mlx/backend/metal/primitives.cpp +242 -0
data/mlx/mlx/backend/metal/quantized.cpp +1651 -0
data/mlx/mlx/backend/metal/reduce.cpp +1038 -0
data/mlx/mlx/backend/metal/reduce.h +41 -0
data/mlx/mlx/backend/metal/resident.cpp +100 -0
data/mlx/mlx/backend/metal/resident.h +32 -0
data/mlx/mlx/backend/metal/rope.cpp +165 -0
data/mlx/mlx/backend/metal/scaled_dot_product_attention.cpp +798 -0
data/mlx/mlx/backend/metal/scan.cpp +145 -0
data/mlx/mlx/backend/metal/scan.h +17 -0
data/mlx/mlx/backend/metal/slicing.cpp +99 -0
data/mlx/mlx/backend/metal/softmax.cpp +87 -0
data/mlx/mlx/backend/metal/sort.cpp +368 -0
data/mlx/mlx/backend/metal/ternary.cpp +160 -0
data/mlx/mlx/backend/metal/ternary.h +21 -0
data/mlx/mlx/backend/metal/unary.cpp +161 -0
data/mlx/mlx/backend/metal/unary.h +21 -0
data/mlx/mlx/backend/metal/utils.cpp +77 -0
data/mlx/mlx/backend/metal/utils.h +99 -0
data/mlx/mlx/backend/no_cpu/CMakeLists.txt +7 -0
data/mlx/mlx/backend/no_cpu/compiled.cpp +24 -0
data/mlx/mlx/backend/no_cpu/device_info.cpp +22 -0
data/mlx/mlx/backend/no_cpu/primitives.cpp +146 -0
data/mlx/mlx/backend/no_gpu/CMakeLists.txt +8 -0
data/mlx/mlx/backend/no_gpu/allocator.cpp +134 -0
data/mlx/mlx/backend/no_gpu/apple_memory.h +16 -0
data/mlx/mlx/backend/no_gpu/device_info.cpp +22 -0
data/mlx/mlx/backend/no_gpu/eval.cpp +24 -0
data/mlx/mlx/backend/no_gpu/event.cpp +53 -0
data/mlx/mlx/backend/no_gpu/fence.cpp +54 -0
data/mlx/mlx/backend/no_gpu/linux_memory.h +22 -0
data/mlx/mlx/backend/no_gpu/primitives.cpp +185 -0
data/mlx/mlx/compile.cpp +1243 -0
data/mlx/mlx/compile.h +45 -0
data/mlx/mlx/compile_impl.h +70 -0
data/mlx/mlx/device.cpp +72 -0
data/mlx/mlx/device.h +56 -0
data/mlx/mlx/distributed/CMakeLists.txt +14 -0
data/mlx/mlx/distributed/distributed.cpp +197 -0
data/mlx/mlx/distributed/distributed.h +61 -0
data/mlx/mlx/distributed/distributed_impl.h +59 -0
data/mlx/mlx/distributed/jaccl/CMakeLists.txt +12 -0
data/mlx/mlx/distributed/jaccl/jaccl.cpp +178 -0
data/mlx/mlx/distributed/jaccl/jaccl.h +12 -0
data/mlx/mlx/distributed/jaccl/mesh.cpp +451 -0
data/mlx/mlx/distributed/jaccl/mesh.h +122 -0
data/mlx/mlx/distributed/jaccl/no_jaccl.cpp +20 -0
data/mlx/mlx/distributed/jaccl/ring.cpp +692 -0
data/mlx/mlx/distributed/jaccl/ring.h +178 -0
data/mlx/mlx/distributed/jaccl/utils.cpp +329 -0
data/mlx/mlx/distributed/jaccl/utils.h +342 -0
data/mlx/mlx/distributed/mpi/CMakeLists.txt +5 -0
data/mlx/mlx/distributed/mpi/mpi.cpp +501 -0
data/mlx/mlx/distributed/mpi/mpi.h +12 -0
data/mlx/mlx/distributed/mpi/mpi_declarations.h +28 -0
data/mlx/mlx/distributed/mpi/no_mpi.cpp +20 -0
data/mlx/mlx/distributed/nccl/CMakeLists.txt +26 -0
data/mlx/mlx/distributed/nccl/nccl.cpp +443 -0
data/mlx/mlx/distributed/nccl/nccl.h +12 -0
data/mlx/mlx/distributed/nccl/nccl_stub/CMakeLists.txt +1 -0
data/mlx/mlx/distributed/nccl/nccl_stub/nccl_stubs.cpp +54 -0
data/mlx/mlx/distributed/nccl/no_nccl.cpp +20 -0
data/mlx/mlx/distributed/ops.cpp +186 -0
data/mlx/mlx/distributed/ops.h +57 -0
data/mlx/mlx/distributed/primitives.cpp +95 -0
data/mlx/mlx/distributed/primitives.h +156 -0
data/mlx/mlx/distributed/reduction_ops.h +38 -0
data/mlx/mlx/distributed/ring/CMakeLists.txt +5 -0
data/mlx/mlx/distributed/ring/no_ring.cpp +20 -0
data/mlx/mlx/distributed/ring/ring.cpp +870 -0
data/mlx/mlx/distributed/ring/ring.h +12 -0
data/mlx/mlx/distributed/utils.cpp +206 -0
data/mlx/mlx/distributed/utils.h +67 -0
data/mlx/mlx/dtype.cpp +197 -0
data/mlx/mlx/dtype.h +116 -0
data/mlx/mlx/dtype_utils.cpp +42 -0
data/mlx/mlx/dtype_utils.h +119 -0
data/mlx/mlx/einsum.cpp +941 -0
data/mlx/mlx/einsum.h +23 -0
data/mlx/mlx/event.h +58 -0
data/mlx/mlx/export.cpp +1130 -0
data/mlx/mlx/export.h +137 -0
data/mlx/mlx/export_impl.h +99 -0
data/mlx/mlx/fast.cpp +941 -0
data/mlx/mlx/fast.h +103 -0
data/mlx/mlx/fast_primitives.h +427 -0
data/mlx/mlx/fence.h +39 -0
data/mlx/mlx/fft.cpp +262 -0
data/mlx/mlx/fft.h +159 -0
data/mlx/mlx/graph_utils.cpp +175 -0
data/mlx/mlx/graph_utils.h +67 -0
data/mlx/mlx/io/CMakeLists.txt +25 -0
data/mlx/mlx/io/gguf.cpp +470 -0
data/mlx/mlx/io/gguf.h +20 -0
data/mlx/mlx/io/gguf_quants.cpp +164 -0
data/mlx/mlx/io/load.cpp +397 -0
data/mlx/mlx/io/load.h +175 -0
data/mlx/mlx/io/no_gguf.cpp +20 -0
data/mlx/mlx/io/no_safetensors.cpp +37 -0
data/mlx/mlx/io/safetensors.cpp +234 -0
data/mlx/mlx/io.h +61 -0
data/mlx/mlx/linalg.cpp +708 -0
data/mlx/mlx/linalg.h +115 -0
data/mlx/mlx/memory.h +80 -0
data/mlx/mlx/mlx.h +25 -0
data/mlx/mlx/ops.cpp +6094 -0
data/mlx/mlx/ops.h +1610 -0
data/mlx/mlx/primitives.cpp +5850 -0
data/mlx/mlx/primitives.h +2525 -0
data/mlx/mlx/random.cpp +492 -0
data/mlx/mlx/random.h +283 -0
data/mlx/mlx/scheduler.cpp +73 -0
data/mlx/mlx/scheduler.h +189 -0
data/mlx/mlx/small_vector.h +540 -0
data/mlx/mlx/stream.h +42 -0
data/mlx/mlx/threadpool.h +133 -0
data/mlx/mlx/transforms.cpp +1065 -0
data/mlx/mlx/transforms.h +231 -0
data/mlx/mlx/transforms_impl.h +88 -0
data/mlx/mlx/types/bf16.h +187 -0
data/mlx/mlx/types/complex.h +113 -0
data/mlx/mlx/types/fp16.h +234 -0
data/mlx/mlx/types/half_types.h +58 -0
data/mlx/mlx/types/limits.h +70 -0
data/mlx/mlx/utils.cpp +302 -0
data/mlx/mlx/utils.h +174 -0
data/mlx/mlx/version.cpp +11 -0
data/mlx/mlx/version.h +22 -0
data/mlx/mlx.pc.in +52 -0
data/mlx/pyproject.toml +7 -0
data/mlx/python/mlx/__main__.py +27 -0
data/mlx/python/mlx/_distributed_utils/common.py +135 -0
data/mlx/python/mlx/_distributed_utils/config.py +631 -0
data/mlx/python/mlx/_distributed_utils/launch.py +570 -0
data/mlx/python/mlx/_reprlib_fix.py +16 -0
data/mlx/python/mlx/_stub_patterns.txt +36 -0
data/mlx/python/mlx/extension.py +88 -0
data/mlx/python/mlx/nn/__init__.py +5 -0
data/mlx/python/mlx/nn/init.py +441 -0
data/mlx/python/mlx/nn/layers/__init__.py +105 -0
data/mlx/python/mlx/nn/layers/activations.py +661 -0
data/mlx/python/mlx/nn/layers/base.py +675 -0
data/mlx/python/mlx/nn/layers/containers.py +24 -0
data/mlx/python/mlx/nn/layers/convolution.py +232 -0
data/mlx/python/mlx/nn/layers/convolution_transpose.py +242 -0
data/mlx/python/mlx/nn/layers/distributed.py +601 -0
data/mlx/python/mlx/nn/layers/dropout.py +137 -0
data/mlx/python/mlx/nn/layers/embedding.py +53 -0
data/mlx/python/mlx/nn/layers/linear.py +180 -0
data/mlx/python/mlx/nn/layers/normalization.py +363 -0
data/mlx/python/mlx/nn/layers/pooling.py +398 -0
data/mlx/python/mlx/nn/layers/positional_encoding.py +162 -0
data/mlx/python/mlx/nn/layers/quantized.py +426 -0
data/mlx/python/mlx/nn/layers/recurrent.py +289 -0
data/mlx/python/mlx/nn/layers/transformer.py +354 -0
data/mlx/python/mlx/nn/layers/upsample.py +277 -0
data/mlx/python/mlx/nn/losses.py +610 -0
data/mlx/python/mlx/nn/utils.py +165 -0
data/mlx/python/mlx/optimizers/__init__.py +4 -0
data/mlx/python/mlx/optimizers/optimizers.py +976 -0
data/mlx/python/mlx/optimizers/schedulers.py +158 -0
data/mlx/python/mlx/py.typed +1 -0
data/mlx/python/mlx/utils.py +325 -0
data/mlx/python/src/CMakeLists.txt +96 -0
data/mlx/python/src/array.cpp +1525 -0
data/mlx/python/src/buffer.h +124 -0
data/mlx/python/src/constants.cpp +15 -0
data/mlx/python/src/convert.cpp +504 -0
data/mlx/python/src/convert.h +50 -0
data/mlx/python/src/cuda.cpp +19 -0
data/mlx/python/src/device.cpp +98 -0
data/mlx/python/src/distributed.cpp +352 -0
data/mlx/python/src/export.cpp +356 -0
data/mlx/python/src/fast.cpp +627 -0
data/mlx/python/src/fft.cpp +514 -0
data/mlx/python/src/indexing.cpp +1016 -0
data/mlx/python/src/indexing.h +41 -0
data/mlx/python/src/linalg.cpp +663 -0
data/mlx/python/src/load.cpp +531 -0
data/mlx/python/src/load.h +51 -0
data/mlx/python/src/memory.cpp +125 -0
data/mlx/python/src/metal.cpp +98 -0
data/mlx/python/src/mlx.cpp +51 -0
data/mlx/python/src/mlx_func.cpp +116 -0
data/mlx/python/src/mlx_func.h +31 -0
data/mlx/python/src/ops.cpp +5545 -0
data/mlx/python/src/random.cpp +516 -0
data/mlx/python/src/small_vector.h +76 -0
data/mlx/python/src/stream.cpp +147 -0
data/mlx/python/src/transforms.cpp +1542 -0
data/mlx/python/src/trees.cpp +311 -0
data/mlx/python/src/trees.h +62 -0
data/mlx/python/src/utils.cpp +98 -0
data/mlx/python/src/utils.h +78 -0
data/mlx/python/tests/__main__.py +5 -0
data/mlx/python/tests/cuda_skip.py +62 -0
data/mlx/python/tests/mlx_distributed_tests.py +314 -0
data/mlx/python/tests/mlx_tests.py +116 -0
data/mlx/python/tests/mpi_test_distributed.py +142 -0
data/mlx/python/tests/nccl_test_distributed.py +52 -0
data/mlx/python/tests/ring_test_distributed.py +131 -0
data/mlx/python/tests/test_array.py +2139 -0
data/mlx/python/tests/test_autograd.py +880 -0
data/mlx/python/tests/test_bf16.py +196 -0
data/mlx/python/tests/test_blas.py +1429 -0
data/mlx/python/tests/test_compile.py +1277 -0
data/mlx/python/tests/test_constants.py +41 -0
data/mlx/python/tests/test_conv.py +1198 -0
data/mlx/python/tests/test_conv_transpose.py +810 -0
data/mlx/python/tests/test_device.py +150 -0
data/mlx/python/tests/test_double.py +306 -0
data/mlx/python/tests/test_einsum.py +363 -0
data/mlx/python/tests/test_eval.py +200 -0
data/mlx/python/tests/test_export_import.py +614 -0
data/mlx/python/tests/test_fast.py +923 -0
data/mlx/python/tests/test_fast_sdpa.py +647 -0
data/mlx/python/tests/test_fft.py +323 -0
data/mlx/python/tests/test_graph.py +37 -0
data/mlx/python/tests/test_init.py +139 -0
data/mlx/python/tests/test_linalg.py +621 -0
data/mlx/python/tests/test_load.py +447 -0
data/mlx/python/tests/test_losses.py +427 -0
data/mlx/python/tests/test_memory.py +77 -0
data/mlx/python/tests/test_nn.py +1986 -0
data/mlx/python/tests/test_ops.py +3261 -0
data/mlx/python/tests/test_optimizers.py +584 -0
data/mlx/python/tests/test_quantized.py +1160 -0
data/mlx/python/tests/test_random.py +392 -0
data/mlx/python/tests/test_reduce.py +223 -0
data/mlx/python/tests/test_tree.py +96 -0
data/mlx/python/tests/test_upsample.py +100 -0
data/mlx/python/tests/test_vmap.py +860 -0
data/mlx/setup.py +315 -0
data/mlx/tests/CMakeLists.txt +44 -0
data/mlx/tests/allocator_tests.cpp +41 -0
data/mlx/tests/arg_reduce_tests.cpp +204 -0
data/mlx/tests/array_tests.cpp +663 -0
data/mlx/tests/autograd_tests.cpp +1399 -0
data/mlx/tests/blas_tests.cpp +110 -0
data/mlx/tests/compile_tests.cpp +818 -0
data/mlx/tests/creations_tests.cpp +239 -0
data/mlx/tests/custom_vjp_tests.cpp +55 -0
data/mlx/tests/device_tests.cpp +35 -0
data/mlx/tests/einsum_tests.cpp +85 -0
data/mlx/tests/eval_tests.cpp +93 -0
data/mlx/tests/export_import_tests.cpp +164 -0
data/mlx/tests/fft_tests.cpp +366 -0
data/mlx/tests/gpu_tests.cpp +523 -0
data/mlx/tests/linalg_tests.cpp +639 -0
data/mlx/tests/load_tests.cpp +270 -0
data/mlx/tests/ops_tests.cpp +4159 -0
data/mlx/tests/random_tests.cpp +716 -0
data/mlx/tests/scheduler_tests.cpp +121 -0
data/mlx/tests/tests.cpp +26 -0
data/mlx/tests/utils_tests.cpp +67 -0
data/mlx/tests/vmap_tests.cpp +547 -0
metadata +958 -0

data/mlx/mlx/backend/metal/kernels/quantized_nax.h ADDED Viewed

@@ -0,0 +1,1705 @@
+// Copyright © 2023-2024 Apple Inc.
+#include <metal_simdgroup>
+#include <metal_stdlib>
+using namespace metal;
+using namespace mlx::steel;
+constant bool align_M [[function_constant(200)]];
+constant bool align_N [[function_constant(201)]];
+constant bool align_K [[function_constant(202)]];
+using namespace metal;
+#define MLX_MTL_CONST static constant constexpr const
+MLX_MTL_CONST int SIMD_SIZE = 32;
+MLX_MTL_CONST int QUAD_SIZE = 4;
+template <int bits, int wsize = 8>
+inline constexpr short get_pack_factor() {
+  return (bits == 3 || bits == 5) ? 8 : (bits == 6 ? 4 : wsize / bits);
+}
+template <int bits, int wsize = 8>
+inline constexpr short get_bytes_per_pack() {
+  constexpr int power_of_2_bits = (bits & (bits - 1)) == 0;
+  return power_of_2_bits ? (wsize / 8) : (bits == 5 ? 5 : 3);
+}
+template <typename T, typename U, int values_per_thread, int bits>
+inline U load_vector(const device T* x, thread U* x_thread) {
+  static_assert(
+      bits == 2 || bits == 3 || bits == 4 || bits == 5 || bits == 6 ||
+          bits == 8,
+      "Template undefined for bits not in {2, 3, 4, 5, 6, 8}");
+  U sum = 0;
+  if (bits == 2) {
+    for (int i = 0; i < values_per_thread; i += 4) {
+      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3];
+      x_thread[i] = x[i];
+      x_thread[i + 1] = x[i + 1] / 4.0f;
+      x_thread[i + 2] = x[i + 2] / 16.0f;
+      x_thread[i + 3] = x[i + 3] / 64.0f;
+    }
+  }
+  else if (bits == 3) {
+    for (int i = 0; i < values_per_thread; i += 8) {
+      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3] + x[i + 4] + x[i + 5] +
+          x[i + 6] + x[i + 7];
+      x_thread[i] = x[i];
+      x_thread[i + 1] = x[i + 1] / 8.0f;
+      x_thread[i + 2] = x[i + 2] / 64.0f;
+      x_thread[i + 3] = x[i + 3] / 2.0f;
+      x_thread[i + 4] = x[i + 4] / 16.0f;
+      x_thread[i + 5] = x[i + 5] / 128.0f;
+      x_thread[i + 6] = x[i + 6] / 4.0f;
+      x_thread[i + 7] = x[i + 7] / 32.0f;
+    }
+  }
+  else if (bits == 4) {
+    for (int i = 0; i < values_per_thread; i += 4) {
+      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3];
+      x_thread[i] = x[i];
+      x_thread[i + 1] = x[i + 1] / 16.0f;
+      x_thread[i + 2] = x[i + 2] / 256.0f;
+      x_thread[i + 3] = x[i + 3] / 4096.0f;
+    }
+  }
+  else if (bits == 5) {
+    for (int i = 0; i < values_per_thread; i += 8) {
+      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3] + x[i + 4] + x[i + 5] +
+          x[i + 6] + x[i + 7];
+      x_thread[i] = x[i];
+      x_thread[i + 1] = x[i + 1] / 32.0f;
+      x_thread[i + 2] = x[i + 2] / 4.0f;
+      x_thread[i + 3] = x[i + 3] / 128.0f;
+      x_thread[i + 4] = x[i + 4] / 16.0f;
+      x_thread[i + 5] = x[i + 5] / 2.0f;
+      x_thread[i + 6] = x[i + 6] / 64.0f;
+      x_thread[i + 7] = x[i + 7] / 8.0f;
+    }
+  }
+  else if (bits == 6) {
+    for (int i = 0; i < values_per_thread; i += 4) {
+      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3];
+      x_thread[i] = x[i];
+      x_thread[i + 1] = x[i + 1] / 64.0f;
+      x_thread[i + 2] = x[i + 2] / 16.0f;
+      x_thread[i + 3] = x[i + 3] / 4.0f;
+    }
+  }
+  else if (bits == 8) {
+    for (int i = 0; i < values_per_thread; i++) {
+      sum += x[i];
+      x_thread[i] = x[i];
+    }
+  }
+  return sum;
+}
+template <typename T, typename U, int values_per_thread, int bits>
+inline U load_vector_safe(const device T* x, thread U* x_thread, int N) {
+  static_assert(
+      bits == 2 || bits == 3 || bits == 4 || bits == 5 || bits == 6 ||
+          bits == 8,
+      "Template undefined for bits not in {2, 3, 4, 5, 6, 8}");
+  U sum = 0;
+  if (bits == 2) {
+    for (int i = 0; i < N; i += 4) {
+      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3];
+      x_thread[i] = x[i];
+      x_thread[i + 1] = x[i + 1] / 4.0f;
+      x_thread[i + 2] = x[i + 2] / 16.0f;
+      x_thread[i + 3] = x[i + 3] / 64.0f;
+    }
+  }
+  else if (bits == 3) {
+    for (int i = 0; i < N; i += 8) {
+      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3] + x[i + 4] + x[i + 5] +
+          x[i + 6] + x[i + 7];
+      x_thread[i] = x[i];
+      x_thread[i + 1] = x[i + 1] / 8.0f;
+      x_thread[i + 2] = x[i + 2] / 64.0f;
+      x_thread[i + 3] = x[i + 3] / 2.0f;
+      x_thread[i + 4] = x[i + 4] / 16.0f;
+      x_thread[i + 5] = x[i + 5] / 128.0f;
+      x_thread[i + 6] = x[i + 6] / 4.0f;
+      x_thread[i + 7] = x[i + 7] / 32.0f;
+    }
+  }
+  else if (bits == 4) {
+    for (int i = 0; i < N; i += 4) {
+      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3];
+      x_thread[i] = x[i];
+      x_thread[i + 1] = x[i + 1] / 16.0f;
+      x_thread[i + 2] = x[i + 2] / 256.0f;
+      x_thread[i + 3] = x[i + 3] / 4096.0f;
+    }
+  }
+  else if (bits == 5) {
+    for (int i = 0; i < N; i += 8) {
+      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3] + x[i + 4] + x[i + 5] +
+          x[i + 6] + x[i + 7];
+      x_thread[i] = x[i];
+      x_thread[i + 1] = x[i + 1] / 32.0f;
+      x_thread[i + 2] = x[i + 2] / 4.0f;
+      x_thread[i + 3] = x[i + 3] / 128.0f;
+      x_thread[i + 4] = x[i + 4] / 16.0f;
+      x_thread[i + 5] = x[i + 5] / 2.0f;
+      x_thread[i + 6] = x[i + 6] / 64.0f;
+      x_thread[i + 7] = x[i + 7] / 8.0f;
+    }
+  }
+  else if (bits == 6) {
+    for (int i = 0; i < N; i += 4) {
+      sum += x[i] + x[i + 1] + x[i + 2] + x[i + 3];
+      x_thread[i] = x[i];
+      x_thread[i + 1] = x[i + 1] / 64.0f;
+      x_thread[i + 2] = x[i + 2] / 16.0f;
+      x_thread[i + 3] = x[i + 3] / 4.0f;
+    }
+  }
+  else if (bits == 8) {
+    for (int i = 0; i < N; i++) {
+      sum += x[i];
+      x_thread[i] = x[i];
+    }
+  }
+  for (int i = N; i < values_per_thread; i++) {
+    x_thread[i] = 0;
+  }
+  return sum;
+}
+template <typename U, int values_per_thread, int bits>
+inline U qdot(
+    const device uint8_t* w,
+    const thread U* x_thread,
+    U scale,
+    U bias,
+    U sum) {
+  static_assert(
+      bits == 2 || bits == 3 || bits == 4 || bits == 5 || bits == 6 ||
+          bits == 8,
+      "Template undefined for bits not in {2, 3, 4, 5, 6, 8}");
+  U accum = 0;
+  if (bits == 2) {
+    for (int i = 0; i < (values_per_thread / 4); i++) {
+      accum +=
+          (x_thread[4 * i] * (w[i] & 0x03) +
+           x_thread[4 * i + 1] * (w[i] & 0x0c) +
+           x_thread[4 * i + 2] * (w[i] & 0x30) +
+           x_thread[4 * i + 3] * (w[i] & 0xc0));
+    }
+  }
+  else if (bits == 3) {
+    for (int i = 0; i < (values_per_thread / 8); i++) {
+      x_thread += 8 * i;
+      w += 3 * i;
+      accum += (w[0] & 0x07) * x_thread[0];
+      accum += (w[0] & 0x38) * x_thread[1];
+      accum += (w[0] & 0xc0) * x_thread[2];
+      accum += (w[1] & 0x01) * (x_thread[2] * 256.0f);
+      accum += (w[1] & 0x0e) * x_thread[3];
+      accum += (w[1] & 0x70) * x_thread[4];
+      accum += (w[1] & 0x80) * x_thread[5];
+      accum += (w[2] & 0x03) * (x_thread[5] * 256.0f);
+      accum += (w[2] & 0x1c) * x_thread[6];
+      accum += (w[2] & 0xe0) * x_thread[7];
+    }
+  }
+  else if (bits == 4) {
+    const device uint16_t* ws = (const device uint16_t*)w;
+    for (int i = 0; i < (values_per_thread / 4); i++) {
+      accum +=
+          (x_thread[4 * i] * (ws[i] & 0x000f) +
+           x_thread[4 * i + 1] * (ws[i] & 0x00f0) +
+           x_thread[4 * i + 2] * (ws[i] & 0x0f00) +
+           x_thread[4 * i + 3] * (ws[i] & 0xf000));
+    }
+  }
+  else if (bits == 5) {
+    for (int i = 0; i < (values_per_thread / 8); i++) {
+      x_thread += 8 * i;
+      w += 5 * i;
+      accum += (w[0] & 0x1f) * x_thread[0];
+      accum += (w[0] & 0xe0) * x_thread[1];
+      accum += (w[1] & 0x3) * (x_thread[1] * 256.0f);
+      accum += (w[1] & 0x7c) * x_thread[2];
+      accum += (w[1] & 0x80) * x_thread[3];
+      accum += (w[2] & 0xf) * (x_thread[3] * 256.0f);
+      accum += (w[2] & 0xf0) * x_thread[4];
+      accum += (w[3] & 0x1) * (x_thread[4] * 256.0f);
+      accum += (w[3] & 0x3e) * x_thread[5];
+      accum += (w[3] & 0xc0) * x_thread[6];
+      accum += (w[4] & 0x7) * (x_thread[6] * 256.0f);
+      accum += (w[4] & 0xf8) * x_thread[7];
+    }
+  }
+  else if (bits == 6) {
+    for (int i = 0; i < (values_per_thread / 4); i++) {
+      x_thread += 4 * i;
+      w += 3 * i;
+      accum += (w[0] & 0x3f) * x_thread[0];
+      accum += (w[0] & 0xc0) * x_thread[1];
+      accum += (w[1] & 0x0f) * (x_thread[1] * 256.0f);
+      accum += (w[1] & 0xf0) * x_thread[2];
+      accum += (w[2] & 0x03) * (x_thread[2] * 256.0f);
+      accum += (w[2] & 0xfc) * x_thread[3];
+    }
+  }
+  else if (bits == 8) {
+    for (int i = 0; i < values_per_thread; i++) {
+      accum += x_thread[i] * w[i];
+    }
+  }
+  return scale * accum + sum * bias;
+}
+template <typename U, int values_per_thread, int bits>
+inline U qdot_safe(
+    const device uint8_t* w,
+    const thread U* x_thread,
+    U scale,
+    U bias,
+    U sum,
+    int N) {
+  static_assert(
+      bits == 2 || bits == 3 || bits == 4 || bits == 5 || bits == 6 ||
+          bits == 8,
+      "Template undefined for bits not in {2, 3, 4, 5, 6, 8}");
+  U accum = 0;
+  if (bits == 2) {
+    for (int i = 0; i < (N / 4); i++) {
+      accum +=
+          (x_thread[4 * i] * (w[i] & 0x03) +
+           x_thread[4 * i + 1] * (w[i] & 0x0c) +
+           x_thread[4 * i + 2] * (w[i] & 0x30) +
+           x_thread[4 * i + 3] * (w[i] & 0xc0));
+    }
+  }
+  else if (bits == 3) {
+    for (int i = 0; i < (N / 8); i++) {
+      x_thread += 8 * i;
+      w += 3 * i;
+      accum += (w[0] & 0x07) * x_thread[0];
+      accum += (w[0] & 0x38) * x_thread[1];
+      accum += (w[0] & 0xc0) * x_thread[2];
+      accum += (w[1] & 0x01) * (x_thread[2] * 256.0f);
+      accum += (w[1] & 0x0e) * x_thread[3];
+      accum += (w[1] & 0x70) * x_thread[4];
+      accum += (w[1] & 0x80) * x_thread[5];
+      accum += (w[2] & 0x03) * (x_thread[5] * 256.0f);
+      accum += (w[2] & 0x1c) * x_thread[6];
+      accum += (w[2] & 0xe0) * x_thread[7];
+    }
+  }
+  else if (bits == 4) {
+    const device uint16_t* ws = (const device uint16_t*)w;
+    for (int i = 0; i < (N / 4); i++) {
+      accum +=
+          (x_thread[4 * i] * (ws[i] & 0x000f) +
+           x_thread[4 * i + 1] * (ws[i] & 0x00f0) +
+           x_thread[4 * i + 2] * (ws[i] & 0x0f00) +
+           x_thread[4 * i + 3] * (ws[i] & 0xf000));
+    }
+  }
+  else if (bits == 5) {
+    for (int i = 0; i < (N / 8); i++) {
+      x_thread += 8 * i;
+      w += 5 * i;
+      accum += (w[0] & 0x1f) * x_thread[0];
+      accum += (w[0] & 0xe0) * x_thread[1];
+      accum += (w[1] & 0x3) * (x_thread[1] * 256.0f);
+      accum += (w[1] & 0x7c) * x_thread[2];
+      accum += (w[1] & 0x80) * x_thread[3];
+      accum += (w[2] & 0xf) * (x_thread[3] * 256.0f);
+      accum += (w[2] & 0xf0) * x_thread[4];
+      accum += (w[3] & 0x1) * (x_thread[4] * 256.0f);
+      accum += (w[3] & 0x3e) * x_thread[5];
+      accum += (w[3] & 0xc0) * x_thread[6];
+      accum += (w[4] & 0x7) * (x_thread[6] * 256.0f);
+      accum += (w[4] & 0xf8) * x_thread[7];
+    }
+  }
+  else if (bits == 6) {
+    for (int i = 0; i < (N / 4); i++) {
+      x_thread += 4 * i;
+      w += 3 * i;
+      accum += (w[0] & 0x3f) * x_thread[0];
+      accum += (w[0] & 0xc0) * x_thread[1];
+      accum += (w[1] & 0x0f) * (x_thread[1] * 256.0f);
+      accum += (w[1] & 0xf0) * x_thread[2];
+      accum += (w[2] & 0x03) * (x_thread[2] * 256.0f);
+      accum += (w[2] & 0xfc) * x_thread[3];
+    }
+  }
+  else if (bits == 8) {
+    for (int i = 0; i < N; i++) {
+      accum += x_thread[i] * w[i];
+    }
+  }
+  return scale * accum + sum * bias;
+}
+template <typename U, int values_per_thread, int bits>
+inline void
+qouter(const thread uint8_t* w, U x, U scale, U bias, thread U* result) {
+  static_assert(
+      bits == 2 || bits == 3 || bits == 4 || bits == 5 || bits == 6 ||
+          bits == 8,
+      "Template undefined for bits not in {2, 3, 4, 5, 6, 8}");
+  if (bits == 2) {
+    U s[4] = {scale, scale / 4.0f, scale / 16.0f, scale / 64.0f};
+    for (int i = 0; i < (values_per_thread / 4); i++) {
+      result[4 * i] += x * (s[0] * (w[i] & 0x03) + bias);
+      result[4 * i + 1] += x * (s[1] * (w[i] & 0x0c) + bias);
+      result[4 * i + 2] += x * (s[2] * (w[i] & 0x30) + bias);
+      result[4 * i + 3] += x * (s[3] * (w[i] & 0xc0) + bias);
+    }
+  }
+  else if (bits == 3) {
+    for (int i = 0; i < (values_per_thread / 8); i++) {
+      uint8_t w0 = w[3 * i];
+      uint8_t w1 = w[3 * i + 1];
+      uint8_t w2 = w[3 * i + 2];
+      result[8 * i] += x * ((w0 & 0x7) * scale + bias);
+      result[8 * i + 1] += x * (((w0 & 0x38) >> 3) * scale + bias);
+      result[8 * i + 2] +=
+          x * ((((w0 & 0xc0) >> 6) + ((w1 & 0x1) << 2)) * scale + bias);
+      result[8 * i + 3] += x * (((w1 & 0xe) >> 1) * scale + bias);
+      result[8 * i + 4] += x * (((w1 & 0x70) >> 4) * scale + bias);
+      result[8 * i + 5] +=
+          x * ((((w1 & 0x80) >> 7) + ((w2 & 0x3) << 1)) * scale + bias);
+      result[8 * i + 6] += x * (((w2 & 0x1c) >> 2) * scale + bias);
+      result[8 * i + 7] += x * (((w2 & 0xe0) >> 5) * scale + bias);
+    }
+  }
+  else if (bits == 4) {
+    U s[2] = {scale, scale / 16.0f};
+    for (int i = 0; i < (values_per_thread / 2); i++) {
+      result[2 * i] += x * (s[0] * (w[i] & 0x0f) + bias);
+      result[2 * i + 1] += x * (s[1] * (w[i] & 0xf0) + bias);
+    }
+  }
+  else if (bits == 5) {
+    for (int i = 0; i < (values_per_thread / 8); i++) {
+      uint8_t w0 = w[5 * i];
+      uint8_t w1 = w[5 * i + 1];
+      uint8_t w2 = w[5 * i + 2];
+      uint8_t w3 = w[5 * i + 3];
+      uint8_t w4 = w[5 * i + 4];
+      result[8 * i] += x * ((w0 & 0x1f) * scale + bias);
+      result[8 * i + 1] +=
+          x * ((((w0 & 0xe0) >> 5) + ((w1 & 0x3) << 3)) * scale + bias);
+      result[8 * i + 2] += x * (((w1 & 0x7c) >> 2) * scale + bias);
+      result[8 * i + 3] +=
+          x * ((((w1 & 0x80) >> 7) + ((w2 & 0xf) << 1)) * scale + bias);
+      result[8 * i + 4] +=
+          x * ((((w2 & 0xf0) >> 4) + ((w3 & 0x1) << 4)) * scale + bias);
+      result[8 * i + 5] += x * (((w3 & 0x3e) >> 1) * scale + bias);
+      result[8 * i + 6] +=
+          x * ((((w3 & 0xc0) >> 6) + ((w4 & 0x7) << 2)) * scale + bias);
+      result[8 * i + 7] += x * (((w4 & 0xf8) >> 3) * scale + bias);
+    }
+  }
+  else if (bits == 6) {
+    for (int i = 0; i < (values_per_thread / 4); i++) {
+      uint8_t w0 = w[3 * i];
+      uint8_t w1 = w[3 * i + 1];
+      uint8_t w2 = w[3 * i + 2];
+      result[4 * i] += x * ((w0 & 0x3f) * scale + bias);
+      result[4 * i + 1] +=
+          x * ((((w0 >> 6) & 0x03) + ((w1 & 0x0f) << 2)) * scale + bias);
+      result[4 * i + 2] +=
+          x * ((((w1 >> 4) & 0x0f) + ((w2 & 0x03) << 4)) * scale + bias);
+      result[4 * i + 3] += x * (((w2 >> 2) & 0x3f) * scale + bias);
+    }
+  }
+  else if (bits == 8) {
+    for (int i = 0; i < values_per_thread; i++) {
+      result[i] += x * (scale * w[i] + bias);
+    }
+  }
+}
+template <typename U, int N, int bits>
+inline void
+dequantize(const device uint8_t* w, U scale, U bias, threadgroup U* w_local) {
+  static_assert(
+      bits == 2 || bits == 3 || bits == 4 || bits == 5 || bits == 6 ||
+          bits == 8,
+      "Template undefined for bits not in {2, 3, 4, 5, 6, 8}");
+  if (bits == 2) {
+    U s[4] = {
+        scale,
+        scale / static_cast<U>(4.0f),
+        scale / static_cast<U>(16.0f),
+        scale / static_cast<U>(64.0f)};
+    for (int i = 0; i < (N / 4); i++) {
+      w_local[4 * i] = s[0] * (w[i] & 0x03) + bias;
+      w_local[4 * i + 1] = s[1] * (w[i] & 0x0c) + bias;
+      w_local[4 * i + 2] = s[2] * (w[i] & 0x30) + bias;
+      w_local[4 * i + 3] = s[3] * (w[i] & 0xc0) + bias;
+    }
+  }
+  else if (bits == 3) {
+    for (int i = 0; i < (N / 8); i++) {
+      w_local += 8 * i;
+      w += 3 * i;
+      w_local[0] = (w[0] & 0x7) * scale + bias;
+      w_local[1] = ((w[0] & 0x38) >> 3) * scale + bias;
+      w_local[2] = (((w[0] & 0xc0) >> 6) + ((w[1] & 0x1) << 2)) * scale + bias;
+      w_local[3] = ((w[1] & 0xe) >> 1) * scale + bias;
+      w_local[4] = ((w[1] & 0x70) >> 4) * scale + bias;
+      w_local[5] = (((w[1] & 0x80) >> 7) + ((w[2] & 0x3) << 1)) * scale + bias;
+      w_local[6] = ((w[2] & 0x1c) >> 2) * scale + bias;
+      w_local[7] = ((w[2] & 0xe0) >> 5) * scale + bias;
+    }
+  }
+  else if (bits == 4) {
+    U s[2] = {scale, scale / static_cast<U>(16.0f)};
+    for (int i = 0; i < (N / 2); i++) {
+      w_local[2 * i] = s[0] * (w[i] & 0x0f) + bias;
+      w_local[2 * i + 1] = s[1] * (w[i] & 0xf0) + bias;
+    }
+  }
+  else if (bits == 5) {
+    for (int i = 0; i < (N / 8); i++) {
+      w_local += 8 * i;
+      w += 5 * i;
+      w_local[0] = (w[0] & 0x1f) * scale + bias;
+      w_local[1] = (((w[0] & 0xe0) >> 5) + ((w[1] & 0x3) << 3)) * scale + bias;
+      w_local[2] = ((w[1] & 0x7c) >> 2) * scale + bias;
+      w_local[3] = (((w[1] & 0x80) >> 7) + ((w[2] & 0xf) << 1)) * scale + bias;
+      w_local[4] = (((w[2] & 0xf0) >> 4) + ((w[3] & 0x1) << 4)) * scale + bias;
+      w_local[5] = ((w[3] & 0x3e) >> 1) * scale + bias;
+      w_local[6] = (((w[3] & 0xc0) >> 6) + ((w[4] & 0x7) << 2)) * scale + bias;
+      w_local[7] = ((w[4] & 0xf8) >> 3) * scale + bias;
+    }
+  }
+  else if (bits == 6) {
+    for (int i = 0; i < (N / 4); i++) {
+      w_local += 4 * i;
+      w += 3 * i;
+      w_local[0] = (w[0] & 0x3f) * scale + bias;
+      w_local[1] = (((w[0] >> 6) & 0x03) + ((w[1] & 0x0f) << 2)) * scale + bias;
+      w_local[2] = (((w[1] >> 4) & 0x0f) + ((w[2] & 0x03) << 4)) * scale + bias;
+      w_local[3] = ((w[2] >> 2) & 0x3f) * scale + bias;
+    }
+  }
+  else if (bits == 8) {
+    for (int i = 0; i < N; i++) {
+      w_local[i] = scale * w[i] + bias;
+    }
+  }
+}
+template <
+    typename T,
+    short BROWS,
+    short BCOLS,
+    short dst_ld,
+    short reduction_dim,
+    short tgp_size,
+    short group_size,
+    short bits>
+struct QuantizedBlockLoader {
+  static_assert(
+      BCOLS <= group_size,
+      "The group size should be larger than the columns");
+  static_assert(
+      group_size % BCOLS == 0,
+      "The group size should be divisible by the columns");
+  static_assert(
+      bits == 2 || bits == 3 || bits == 4 || bits == 5 || bits == 6 ||
+          bits == 8,
+      "Template undefined for bits not in {2, 3, 4, 5, 6, 8}");
+  MLX_MTL_CONST short pack_factor = get_pack_factor<bits, 8>();
+  MLX_MTL_CONST short bytes_per_pack = get_bytes_per_pack<bits>();
+  MLX_MTL_CONST short BCOLS_PACKED = BCOLS / pack_factor;
+  MLX_MTL_CONST short n_reads =
+      (BCOLS_PACKED * BROWS < tgp_size) ? 1 : (BCOLS_PACKED * BROWS) / tgp_size;
+  MLX_MTL_CONST short group_steps = group_size / BCOLS;
+  const int src_ld;
+  const int tile_stride;
+  short group_step_cnt;
+  const int group_stride;
+  const short thread_idx;
+  const short bi;
+  const short bj;
+  threadgroup T* dst;
+  const device uint8_t* src;
+  const device T* scales;
+  const device T* biases;
+  QuantizedBlockLoader(
+      const device uint8_t* src_,
+      const device T* scales_,
+      const device T* biases_,
+      const int src_ld_,
+      threadgroup T* dst_,
+      ushort simd_group_id [[simdgroup_index_in_threadgroup]],
+      ushort simd_lane_id [[thread_index_in_simdgroup]])
+      : src_ld(src_ld_),
+        tile_stride(
+            reduction_dim ? BCOLS_PACKED * bytes_per_pack
+                          : BROWS * src_ld * bytes_per_pack / pack_factor),
+        group_step_cnt(0),
+        group_stride(BROWS * src_ld / group_size),
+        thread_idx(simd_group_id * 32 + simd_lane_id),
+        bi(n_reads * thread_idx / BCOLS_PACKED),
+        bj((n_reads * thread_idx) % BCOLS_PACKED),
+        dst(dst_ + bi * dst_ld + bj * pack_factor),
+        src(src_ + bi * src_ld * bytes_per_pack / pack_factor +
+            bj * bytes_per_pack),
+        scales(scales_ + bi * src_ld / group_size),
+        biases(biases_ + bi * src_ld / group_size) {}
+  void load_unsafe() const {
+    if (BCOLS_PACKED * BROWS < tgp_size && bi >= BROWS) {
+      return;
+    }
+    T scale = *scales;
+    T bias = *biases;
+    for (int i = 0; i < n_reads; i++) {
+      dequantize<T, pack_factor, bits>(
+          src + i * bytes_per_pack, scale, bias, dst + i * pack_factor);
+    }
+  }
+  void load_safe(short2 src_tile_dim) const {
+    if (BCOLS_PACKED * BROWS < tgp_size && bi >= BROWS) {
+      return;
+    }
+    if (reduction_dim == 1 && bi >= src_tile_dim.x) {
+      for (int i = 0; i < n_reads * pack_factor; i++) {
+        dst[i] = T(0);
+      }
+      return;
+    }
+    if (reduction_dim == 0 && bi >= src_tile_dim.y) {
+      for (int i = 0; i < n_reads * pack_factor; i++) {
+        dst[i] = T(0);
+      }
+      return;
+    }
+    T scale = *scales;
+    T bias = *biases;
+    for (int i = 0; i < n_reads; i++) {
+      dequantize<T, pack_factor, bits>(
+          (device uint8_t*)(src + i * bytes_per_pack),
+          scale,
+          bias,
+          dst + i * pack_factor);
+    }
+  }
+  void next() {
+    src += tile_stride;
+    if (reduction_dim == 1) {
+      if (group_steps > 1) {
+        group_step_cnt++;
+        if (group_step_cnt == group_steps) {
+          group_step_cnt = 0;
+          scales++;
+          biases++;
+        }
+      } else {
+        scales++;
+        biases++;
+      }
+    } else {
+      scales += group_stride;
+      biases += group_stride;
+    }
+  }
+};
+template <
+    typename T,
+    short BROWS,
+    short BCOLS,
+    short dst_ld,
+    short reduction_dim,
+    short tgp_size,
+    short bits>
+struct QuantizedBlockLoader<
+    T,
+    BROWS,
+    BCOLS,
+    dst_ld,
+    reduction_dim,
+    tgp_size,
+    32,
+    bits> {
+  MLX_MTL_CONST short group_size = 32;
+  static_assert(
+      BCOLS % group_size == 0,
+      "The group size should be divisible by the columns");
+  static_assert(
+      bits == 2 || bits == 3 || bits == 4 || bits == 5 || bits == 6 ||
+          bits == 8,
+      "Template undefined for bits not in {2, 3, 4, 5, 6, 8}");
+  MLX_MTL_CONST short pack_factor = get_pack_factor<bits, 8>();
+  MLX_MTL_CONST short bytes_per_pack = get_bytes_per_pack<bits>();
+  MLX_MTL_CONST short BCOLS_PACKED = BCOLS / pack_factor;
+  MLX_MTL_CONST short n_reads =
+      (BCOLS_PACKED * BROWS < tgp_size) ? 1 : (BCOLS_PACKED * BROWS) / tgp_size;
+  MLX_MTL_CONST short n_groups = BCOLS / group_size;
+  static_assert(
+      (BCOLS_PACKED / n_reads) == n_groups,
+      "Other configurations are not yet supported");
+  const int src_ld;
+  const int tile_stride;
+  const int group_stride;
+  const short thread_idx;
+  const short bi;
+  const short bj;
+  const short group_id;
+  threadgroup T* dst;
+  const device uint8_t* src;
+  const device T* scales;
+  const device T* biases;
+  QuantizedBlockLoader(
+      const device uint8_t* src_,
+      const device T* scales_,
+      const device T* biases_,
+      const int src_ld_,
+      threadgroup T* dst_,
+      ushort simd_group_id [[simdgroup_index_in_threadgroup]],
+      ushort simd_lane_id [[thread_index_in_simdgroup]])
+      : src_ld(src_ld_),
+        tile_stride(
+            reduction_dim ? BCOLS_PACKED * bytes_per_pack
+                          : BROWS * src_ld * bytes_per_pack / pack_factor),
+        group_stride(BROWS * src_ld / group_size),
+        thread_idx(simd_group_id * 32 + simd_lane_id),
+        bi(n_reads * thread_idx / BCOLS_PACKED),
+        bj((n_reads * thread_idx) % BCOLS_PACKED),
+        group_id((bj * pack_factor) / group_size),
+        dst(dst_ + bi * dst_ld + bj * pack_factor),
+        src(src_ + bi * src_ld * bytes_per_pack / pack_factor +
+            bj * bytes_per_pack),
+        scales(scales_ + bi * src_ld / group_size + group_id),
+        biases(biases_ + bi * src_ld / group_size + group_id) {}
+  void load_unsafe() const {
+    if (BCOLS_PACKED * BROWS < tgp_size && bi >= BROWS) {
+      return;
+    }
+    T scale = *scales;
+    T bias = *biases;
+    for (int i = 0; i < n_reads; i++) {
+      dequantize<T, pack_factor, bits>(
+          src + i * bytes_per_pack, scale, bias, dst + i * pack_factor);
+    }
+  }
+  void load_safe(short2 src_tile_dim) const {
+    if (BCOLS_PACKED * BROWS < tgp_size && bi >= BROWS) {
+      return;
+    }
+    if (reduction_dim == 1 && bi >= src_tile_dim.x) {
+      for (int i = 0; i < n_reads * pack_factor; i++) {
+        dst[i] = T(0);
+      }
+      return;
+    }
+    if (reduction_dim == 0 && bi >= src_tile_dim.y) {
+      for (int i = 0; i < n_reads * pack_factor; i++) {
+        dst[i] = T(0);
+      }
+      return;
+    }
+    T scale = *scales;
+    T bias = *biases;
+    for (int i = 0; i < n_reads; i++) {
+      dequantize<T, pack_factor, bits>(
+          (device uint8_t*)(src + i * bytes_per_pack),
+          scale,
+          bias,
+          dst + i * pack_factor);
+    }
+  }
+  void next() {
+    src += tile_stride;
+    if (reduction_dim == 1) {
+      // if (group_steps > 1) {
+      //   group_step_cnt++;
+      //   if (group_step_cnt == group_steps) {
+      //     group_step_cnt = 0;
+      //     scales++;
+      //     biases++;
+      //   }
+      // } else {
+      scales += n_groups;
+      biases += n_groups;
+      // }
+    } else {
+      scales += n_groups * group_stride;
+      biases += n_groups * group_stride;
+    }
+  }
+};
+template <typename T>
+METAL_FUNC void adjust_matrix_offsets(
+    const device T*& x,
+    const device uint32_t*& w,
+    const device T*& scales,
+    const device T*& biases,
+    device T*& y,
+    int output_stride,
+    const constant int& x_batch_ndims,
+    const constant int* x_shape,
+    const constant int64_t* x_strides,
+    const constant int& w_batch_ndims,
+    const constant int* w_shape,
+    const constant int64_t* w_strides,
+    const constant int64_t* s_strides,
+    const constant int64_t* b_strides,
+    uint3 tid [[threadgroup_position_in_grid]]) {
+  // Set the input/output matrices
+  uint32_t x_idx = tid.z;
+  uint32_t w_idx = tid.z;
+  if (x_batch_ndims == 1) {
+    x += x_idx * x_strides[0];
+  } else {
+    x += elem_to_loc(x_idx, x_shape, x_strides, x_batch_ndims);
+  }
+  if (w_batch_ndims == 1) {
+    w += w_idx * w_strides[0];
+    scales += w_idx * s_strides[0];
+    biases += w_idx * b_strides[0];
+  } else {
+    ulong3 idx = elem_to_loc_broadcast(
+        w_idx, w_shape, w_strides, s_strides, b_strides, w_batch_ndims);
+    w += idx.x;
+    scales += idx.y;
+    biases += idx.z;
+  }
+  y += tid.z * output_stride;
+}
+template <typename T>
+METAL_FUNC void adjust_matrix_offsets(
+    const device T*& x,
+    const device uint32_t*& w,
+    const device T*& scales,
+    const device T*& biases,
+    const device uint32_t* lhs_indices,
+    const device uint32_t* rhs_indices,
+    device T*& y,
+    int output_stride,
+    const constant int& batch_ndims,
+    const constant int* batch_shape,
+    const constant int64_t* lhs_strides,
+    const constant int64_t* rhs_strides,
+    const constant int& x_batch_ndims,
+    const constant int* x_shape,
+    const constant int64_t* x_strides,
+    const constant int& w_batch_ndims,
+    const constant int* w_shape,
+    const constant int64_t* w_strides,
+    const constant int64_t* s_strides,
+    const constant int64_t* b_strides,
+    uint3 tid [[threadgroup_position_in_grid]]) {
+  // Set the input/output matrices
+  uint32_t x_idx;
+  uint32_t w_idx;
+  if (batch_ndims == 1) {
+    x_idx = lhs_indices[tid.z * lhs_strides[0]];
+    w_idx = rhs_indices[tid.z * rhs_strides[0]];
+  } else {
+    ulong2 idx = elem_to_loc_broadcast(
+        tid.z, batch_shape, lhs_strides, rhs_strides, batch_ndims);
+    x_idx = lhs_indices[idx.x];
+    w_idx = rhs_indices[idx.y];
+  }
+  if (x_batch_ndims == 1) {
+    x += x_idx * x_strides[0];
+  } else {
+    x += elem_to_loc(x_idx, x_shape, x_strides, x_batch_ndims);
+  }
+  if (w_batch_ndims == 1) {
+    w += w_idx * w_strides[0];
+    scales += w_idx * s_strides[0];
+    biases += w_idx * b_strides[0];
+  } else {
+    ulong3 idx = elem_to_loc_broadcast(
+        w_idx, w_shape, w_strides, s_strides, b_strides, w_batch_ndims);
+    w += idx.x;
+    scales += idx.y;
+    biases += idx.z;
+  }
+  y += tid.z * output_stride;
+}
+template <
+    typename T,
+    const int group_size,
+    const int bits,
+    const bool aligned_N,
+    const int BM = 64,
+    const int BK = 64,
+    const int BN = 64,
+    const int WM = 2,
+    const int WN = 2>
+METAL_FUNC void qmm_t_nax_tgp_impl(
+    const device uint32_t* w,
+    const device T* scales,
+    const device T* biases,
+    const device T* x,
+    device T* y,
+    threadgroup T* Ws,
+    const constant int& K,
+    const constant int& N,
+    const constant int& M,
+    uint3 tid [[threadgroup_position_in_grid]],
+    uint lid [[thread_index_in_threadgroup]],
+    uint simd_gid [[simdgroup_index_in_threadgroup]],
+    uint simd_lid [[thread_index_in_simdgroup]]) {
+  static_assert(BK >= SIMD_SIZE, "BK should be larger than SIMD_SIZE");
+  static_assert(BK % SIMD_SIZE == 0, "BK should be divisible by SIMD_SIZE");
+  (void)lid;
+  constexpr int pack_factor = get_pack_factor<bits, 8>();
+  constexpr int bytes_per_pack = get_bytes_per_pack<bits>();
+  constexpr int BK_padded = (BK + 16 / sizeof(T));
+  using loader_w_t = QuantizedBlockLoader<
+      T,
+      BN,
+      BK,
+      BK_padded,
+      1,
+      WM * WN * SIMD_SIZE,
+      group_size,
+      bits>;
+  // Set the block
+  const int K_w = K * bytes_per_pack / pack_factor;
+  const int K_g = K / group_size;
+  const int y_row = tid.y * BM;
+  const int y_col = tid.x * BN;
+  auto wl = (const device uint8_t*)w;
+  x += y_row * static_cast<int64_t>(K);
+  wl += y_col * K_w;
+  scales += y_col * K_g;
+  biases += y_col * K_g;
+  y += y_row * static_cast<int64_t>(N) + y_col;
+  // Make the weight loader
+  loader_w_t loader_w(wl, scales, biases, K, Ws, simd_gid, simd_lid);
+  constexpr short UM = 16;
+  constexpr short UN = 32;
+  constexpr short UK = 16;
+  constexpr short SM = BM / WM;
+  constexpr short SN = BN / WN;
+  constexpr short SK = 32;
+  constexpr short TM = SM / UM;
+  constexpr short TN = SN / UN;
+  constexpr short TK = SK / UK;
+  const short tm = SM * (simd_gid / WN);
+  const short tn = SN * (simd_gid % WN);
+  constexpr bool transpose_a = false;
+  constexpr bool transpose_b = true;
+  const short sgp_sm = min(SM, short(M - (y_row + tm)));
+  const bool is_unaligned_sm = (sgp_sm != SM);
+  const short sgp_sn = aligned_N ? SN : min(SN, short(N - (y_col + tn)));
+  const short tgp_bn = aligned_N ? BN : min(BN, int(N - (y_col)));
+  const bool is_unaligned_bn = aligned_N ? false : (tgp_bn != BN);
+  using AccumType = float;
+  using ASubTile = NAXSubTile<T, UM, UK>;
+  using BSubTile = NAXSubTile<T, UN, UK>;
+  using DSubTile = NAXSubTile<AccumType, UM, UN>;
+  NAXTile<AccumType, TM, TN, DSubTile> Dtile;
+  Dtile.clear();
+  x += tm * K;
+  dispatch_bool(!is_unaligned_sm, [&](auto kAlignedM) {
+    dispatch_bool(aligned_N || !is_unaligned_bn, [&](auto kAlignedN) {
+      for (int k = 0; k < K; k += BK) {
+        threadgroup_barrier(mem_flags::mem_threadgroup);
+        if constexpr (kAlignedN.value) {
+          loader_w.load_unsafe();
+        } else {
+          loader_w.load_safe(short2(BK, tgp_bn));
+        }
+        threadgroup_barrier(mem_flags::mem_threadgroup);
+        STEEL_PRAGMA_NO_UNROLL
+        for (int kk1 = 0; kk1 < BK; kk1 += SK) {
+          NAXTile<T, TM, TK, ASubTile> Atile;
+          NAXTile<T, TN, TK, BSubTile> Btile;
+          volatile int compiler_barrier;
+          if constexpr (kAlignedM.value) {
+            Atile.load(x + kk1, K);
+          } else {
+            Atile.load_safe(x + kk1, K, short2(SK, sgp_sm));
+          }
+          Btile.template load<T, BK_padded, 1>(Ws + tn * BK_padded + kk1);
+          tile_matmad_nax(
+              Dtile,
+              Atile,
+              metal::bool_constant<transpose_a>{},
+              Btile,
+              metal::bool_constant<transpose_b>{});
+          (void)compiler_barrier;
+        }
+        x += BK;
+        loader_w.next();
+      }
+      // Store results to device memory
+      threadgroup_barrier(mem_flags::mem_threadgroup);
+      if constexpr (kAlignedM.value && kAlignedN.value) {
+        Dtile.store(y + tm * N + tn, N);
+      } else if (kAlignedM.value && sgp_sn == SN) {
+        Dtile.store(y + tm * N + tn, N);
+      } else {
+        Dtile.store_safe(y + tm * N + tn, N, short2(sgp_sn, sgp_sm));
+      }
+    });
+  });
+}
+template <
+    typename T,
+    const int group_size,
+    const int bits,
+    const int BM = 64,
+    const int BK = 64,
+    const int BN = 64,
+    const int WM = 2,
+    const int WN = 2>
+METAL_FUNC void qmm_n_nax_tgp_impl(
+    const device uint32_t* w,
+    const device T* scales,
+    const device T* biases,
+    const device T* x,
+    device T* y,
+    threadgroup T* Ws,
+    const constant int& K,
+    const constant int& N,
+    const constant int& M,
+    uint3 tid [[threadgroup_position_in_grid]],
+    uint lid [[thread_index_in_threadgroup]],
+    uint simd_gid [[simdgroup_index_in_threadgroup]],
+    uint simd_lid [[thread_index_in_simdgroup]]) {
+  (void)lid;
+  (void)M;
+  static_assert(BK >= SIMD_SIZE, "BK should be larger than SIMD_SIZE");
+  static_assert(BK % SIMD_SIZE == 0, "BK should be divisible by SIMD_SIZE");
+  constexpr int pack_factor = get_pack_factor<bits, 8>();
+  constexpr int bytes_per_pack = get_bytes_per_pack<bits>();
+  constexpr int BN_padded = (BN + 16 / sizeof(T));
+  using loader_w_t = QuantizedBlockLoader<
+      T,
+      BK,
+      BN,
+      BN_padded,
+      0,
+      WM * WN * SIMD_SIZE,
+      group_size,
+      bits>;
+  // Set the block
+  const int K_w = K * bytes_per_pack / pack_factor;
+  const int K_g = K / group_size;
+  const int y_row = tid.y * BM;
+  const int y_col = tid.x * BN;
+  auto wl = (const device uint8_t*)w;
+  x += y_row * static_cast<int64_t>(K);
+  wl += y_col * K_w;
+  scales += y_col * K_g;
+  biases += y_col * K_g;
+  y += y_row * static_cast<int64_t>(N) + y_col;
+  // Make the x loader and mma operation
+  // const short num_els = min(BM, M - y_row);
+  // const short num_outs = min(BN, N - y_col);
+  loader_w_t loader_w(wl, scales, biases, K, Ws, simd_gid, simd_lid);
+  constexpr short UM = 16;
+  constexpr short UN = 32;
+  constexpr short UK = 16;
+  constexpr short SM = BM / WM;
+  constexpr short SN = BN / WN;
+  constexpr short SK = 32;
+  constexpr short TM = SM / UM;
+  constexpr short TN = SN / UN;
+  constexpr short TK = SK / UK;
+  const short tm = SM * (simd_gid / WN);
+  const short tn = SN * (simd_gid % WN);
+  const short ldb_tgp = BN_padded;
+  constexpr bool transpose_a = false;
+  constexpr bool transpose_b = false;
+  using AccumType = float;
+  using ASubTile = NAXSubTile<T, UM, UK>;
+  using BSubTile = NAXSubTile<T, UK, UN>;
+  using DSubTile = NAXSubTile<AccumType, UM, UN>;
+  NAXTile<AccumType, TM, TN, DSubTile> Dtile;
+  Dtile.clear();
+  x += tm * K;
+  for (int k = 0; k < K; k += BK) {
+    threadgroup_barrier(mem_flags::mem_threadgroup);
+    loader_w.load_unsafe();
+    threadgroup_barrier(mem_flags::mem_threadgroup);
+    STEEL_PRAGMA_NO_UNROLL
+    for (int kk1 = 0; kk1 < BK; kk1 += SK) {
+      NAXTile<T, TM, TK, ASubTile> Atile;
+      NAXTile<T, TK, TN, BSubTile> Btile;
+      volatile int compiler_barrier;
+      Atile.load(x + kk1, K);
+      Btile.template load<T, BN_padded, 1>(Ws + tn + kk1 * ldb_tgp);
+      tile_matmad_nax(
+          Dtile,
+          Atile,
+          metal::bool_constant<transpose_a>{},
+          Btile,
+          metal::bool_constant<transpose_b>{});
+      (void)compiler_barrier;
+    }
+    x += BK;
+    loader_w.next();
+  }
+  // Store results to device memory
+  threadgroup_barrier(mem_flags::mem_threadgroup);
+  Dtile.store(y + tm * N + tn, N);
+}
+template <
+    typename T,
+    const int group_size,
+    const int bits,
+    const bool aligned_N,
+    const bool batched,
+    const int BM = 64,
+    const int BK = 32,
+    const int BN = 64,
+    const int WM = 2,
+    const int WN = 2>
+[[kernel]] void affine_qmm_t_nax(
+    const device uint32_t* w [[buffer(0)]],
+    const device T* scales [[buffer(1)]],
+    const device T* biases [[buffer(2)]],
+    const device T* x [[buffer(3)]],
+    device T* y [[buffer(4)]],
+    const constant int& K [[buffer(5)]],
+    const constant int& N [[buffer(6)]],
+    const constant int& M [[buffer(7)]],
+    const constant int& x_batch_ndims [[buffer(8)]],
+    const constant int* x_shape [[buffer(9)]],
+    const constant int64_t* x_strides [[buffer(10)]],
+    const constant int& w_batch_ndims [[buffer(11)]],
+    const constant int* w_shape [[buffer(12)]],
+    const constant int64_t* w_strides [[buffer(13)]],
+    const constant int64_t* s_strides [[buffer(14)]],
+    const constant int64_t* b_strides [[buffer(15)]],
+    uint3 tid [[threadgroup_position_in_grid]],
+    uint lid [[thread_index_in_threadgroup]],
+    uint simd_gid [[simdgroup_index_in_threadgroup]],
+    uint simd_lid [[thread_index_in_simdgroup]]) {
+  (void)lid;
+  constexpr int BK_padded = (BK + 16 / sizeof(T));
+  threadgroup T Ws[BN * BK_padded];
+  if (batched) {
+    adjust_matrix_offsets<T>(
+        x,
+        w,
+        scales,
+        biases,
+        y,
+        M * N,
+        x_batch_ndims,
+        x_shape,
+        x_strides,
+        w_batch_ndims,
+        w_shape,
+        w_strides,
+        s_strides,
+        b_strides,
+        tid);
+  }
+  qmm_t_nax_tgp_impl<T, group_size, bits, aligned_N, BM, BK, BN, WM, WN>(
+      w, scales, biases, x, y, Ws, K, N, M, tid, lid, simd_gid, simd_lid);
+}
+template <
+    typename T,
+    const int group_size,
+    const int bits,
+    const bool batched,
+    const int BM = 64,
+    const int BK = 64,
+    const int BN = 64,
+    const int WM = 2,
+    const int WN = 2>
+[[kernel]] void affine_qmm_n_nax(
+    const device uint32_t* w [[buffer(0)]],
+    const device T* scales [[buffer(1)]],
+    const device T* biases [[buffer(2)]],
+    const device T* x [[buffer(3)]],
+    device T* y [[buffer(4)]],
+    const constant int& K [[buffer(5)]],
+    const constant int& N [[buffer(6)]],
+    const constant int& M [[buffer(7)]],
+    const constant int& x_batch_ndims [[buffer(8)]],
+    const constant int* x_shape [[buffer(9)]],
+    const constant int64_t* x_strides [[buffer(10)]],
+    const constant int& w_batch_ndims [[buffer(11)]],
+    const constant int* w_shape [[buffer(12)]],
+    const constant int64_t* w_strides [[buffer(13)]],
+    const constant int64_t* s_strides [[buffer(14)]],
+    const constant int64_t* b_strides [[buffer(15)]],
+    uint3 tid [[threadgroup_position_in_grid]],
+    uint lid [[thread_index_in_threadgroup]],
+    uint simd_gid [[simdgroup_index_in_threadgroup]],
+    uint simd_lid [[thread_index_in_simdgroup]]) {
+  (void)lid;
+  constexpr int BN_padded = (BN + 16 / sizeof(T));
+  threadgroup T Ws[BK * BN_padded];
+  if (batched) {
+    adjust_matrix_offsets<T>(
+        x,
+        w,
+        scales,
+        biases,
+        y,
+        M * N,
+        x_batch_ndims,
+        x_shape,
+        x_strides,
+        w_batch_ndims,
+        w_shape,
+        w_strides,
+        s_strides,
+        b_strides,
+        tid);
+  }
+  qmm_n_nax_tgp_impl<T, group_size, bits, BM, BK, BN, WM, WN>(
+      w, scales, biases, x, y, Ws, K, N, M, tid, lid, simd_gid, simd_lid);
+}
+template <
+    typename T,
+    const int group_size,
+    const int bits,
+    const bool aligned_N,
+    const int BM = 64,
+    const int BK = 64,
+    const int BN = 64,
+    const int WM = 2,
+    const int WN = 2>
+[[kernel]] void affine_gather_qmm_t_nax(
+    const device uint32_t* w [[buffer(0)]],
+    const device T* scales [[buffer(1)]],
+    const device T* biases [[buffer(2)]],
+    const device T* x [[buffer(3)]],
+    const device uint32_t* lhs_indices [[buffer(4)]],
+    const device uint32_t* rhs_indices [[buffer(5)]],
+    device T* y [[buffer(6)]],
+    const constant int& K [[buffer(7)]],
+    const constant int& N [[buffer(8)]],
+    const constant int& M [[buffer(9)]],
+    const constant int& x_batch_ndims [[buffer(10)]],
+    const constant int* x_shape [[buffer(11)]],
+    const constant int64_t* x_strides [[buffer(12)]],
+    const constant int& w_batch_ndims [[buffer(13)]],
+    const constant int* w_shape [[buffer(14)]],
+    const constant int64_t* w_strides [[buffer(15)]],
+    const constant int64_t* s_strides [[buffer(16)]],
+    const constant int64_t* b_strides [[buffer(17)]],
+    const constant int& batch_ndims [[buffer(18)]],
+    const constant int* batch_shape [[buffer(19)]],
+    const constant int64_t* lhs_strides [[buffer(20)]],
+    const constant int64_t* rhs_strides [[buffer(21)]],
+    uint3 tid [[threadgroup_position_in_grid]],
+    uint lid [[thread_index_in_threadgroup]],
+    uint simd_gid [[simdgroup_index_in_threadgroup]],
+    uint simd_lid [[thread_index_in_simdgroup]]) {
+  (void)lid;
+  constexpr int BK_padded = (BK + 16 / sizeof(T));
+  threadgroup T Ws[BN * BK_padded];
+  adjust_matrix_offsets<T>(
+      x,
+      w,
+      scales,
+      biases,
+      lhs_indices,
+      rhs_indices,
+      y,
+      M * N,
+      batch_ndims,
+      batch_shape,
+      lhs_strides,
+      rhs_strides,
+      x_batch_ndims,
+      x_shape,
+      x_strides,
+      w_batch_ndims,
+      w_shape,
+      w_strides,
+      s_strides,
+      b_strides,
+      tid);
+  qmm_t_nax_tgp_impl<T, group_size, bits, aligned_N, BM, BK, BN, WM, WN>(
+      w, scales, biases, x, y, Ws, K, N, M, tid, lid, simd_gid, simd_lid);
+}
+template <
+    typename T,
+    const int group_size,
+    const int bits,
+    const int BM = 64,
+    const int BK = 64,
+    const int BN = 64,
+    const int WM = 2,
+    const int WN = 2>
+[[kernel]] void affine_gather_qmm_n_nax(
+    const device uint32_t* w [[buffer(0)]],
+    const device T* scales [[buffer(1)]],
+    const device T* biases [[buffer(2)]],
+    const device T* x [[buffer(3)]],
+    const device uint32_t* lhs_indices [[buffer(4)]],
+    const device uint32_t* rhs_indices [[buffer(5)]],
+    device T* y [[buffer(6)]],
+    const constant int& K [[buffer(7)]],
+    const constant int& N [[buffer(8)]],
+    const constant int& M [[buffer(9)]],
+    const constant int& x_batch_ndims [[buffer(10)]],
+    const constant int* x_shape [[buffer(11)]],
+    const constant int64_t* x_strides [[buffer(12)]],
+    const constant int& w_batch_ndims [[buffer(13)]],
+    const constant int* w_shape [[buffer(14)]],
+    const constant int64_t* w_strides [[buffer(15)]],
+    const constant int64_t* s_strides [[buffer(16)]],
+    const constant int64_t* b_strides [[buffer(17)]],
+    const constant int& batch_ndims [[buffer(18)]],
+    const constant int* batch_shape [[buffer(19)]],
+    const constant int64_t* lhs_strides [[buffer(20)]],
+    const constant int64_t* rhs_strides [[buffer(21)]],
+    uint3 tid [[threadgroup_position_in_grid]],
+    uint lid [[thread_index_in_threadgroup]],
+    uint simd_gid [[simdgroup_index_in_threadgroup]],
+    uint simd_lid [[thread_index_in_simdgroup]]) {
+  (void)lid;
+  constexpr int BN_padded = (BN + 16 / sizeof(T));
+  threadgroup T Ws[BK * BN_padded];
+  adjust_matrix_offsets<T>(
+      x,
+      w,
+      scales,
+      biases,
+      lhs_indices,
+      rhs_indices,
+      y,
+      M * N,
+      batch_ndims,
+      batch_shape,
+      lhs_strides,
+      rhs_strides,
+      x_batch_ndims,
+      x_shape,
+      x_strides,
+      w_batch_ndims,
+      w_shape,
+      w_strides,
+      s_strides,
+      b_strides,
+      tid);
+  qmm_n_nax_tgp_impl<T, group_size, bits, BM, BK, BN, WM, WN>(
+      w, scales, biases, x, y, Ws, K, N, M, tid, lid, simd_gid, simd_lid);
+}
+template <
+    typename T,
+    int group_size,
+    int bits,
+    int BM,
+    int BN,
+    int BK,
+    int WM,
+    int WN,
+    bool transpose>
+[[kernel]] void affine_gather_qmm_rhs_nax(
+    const device T* x [[buffer(0)]],
+    const device uint32_t* w [[buffer(1)]],
+    const device T* scales [[buffer(2)]],
+    const device T* biases [[buffer(3)]],
+    const device uint32_t* indices [[buffer(4)]],
+    device T* y [[buffer(5)]],
+    const constant int& M [[buffer(6)]],
+    const constant int& N [[buffer(7)]],
+    const constant int& K [[buffer(8)]],
+    uint3 tid [[threadgroup_position_in_grid]],
+    uint simd_group_id [[simdgroup_index_in_threadgroup]],
+    uint simd_lane_id [[thread_index_in_simdgroup]]) {
+  constexpr int pack_factor = get_pack_factor<bits, 8>();
+  constexpr int bytes_per_pack = get_bytes_per_pack<bits>();
+  constexpr int BK_padded = (BK + 16 / sizeof(T));
+  constexpr int BN_padded = (BN + 16 / sizeof(T));
+  using loader_w_t = QuantizedBlockLoader<
+      T,
+      transpose ? BN : BK,
+      transpose ? BK : BN,
+      transpose ? BK_padded : BN_padded,
+      transpose,
+      WM * WN * SIMD_SIZE,
+      group_size,
+      bits>;
+  threadgroup T Ws[transpose ? BN * BK_padded : BK * BN_padded];
+  // Compute the block
+  const int K_w = K * bytes_per_pack / pack_factor;
+  const int K_g = K / group_size;
+  const int N_w = N * bytes_per_pack / pack_factor;
+  const int N_g = N / group_size;
+  const int K_it = K / BK;
+  const size_t stride_w = transpose ? N * K_w : K * N_w;
+  const size_t stride_s = transpose ? N * K_g : K * N_g;
+  const int y_row = tid.y * BM;
+  const int y_col = tid.x * BN;
+  const size_t y_row_long = size_t(y_row);
+  const size_t y_col_long = size_t(y_col);
+  // Prepare threadgroup bounds
+  const short tgp_bm = align_M ? BM : short(min(BM, M - y_row));
+  const short tgp_bn = align_N ? BN : short(min(BN, N - y_col));
+  // Calculate the final tiles in the case that K is not aligned
+  const int k_remain = K - K_it * BK;
+  const short2 tile_w =
+      transpose ? short2(k_remain, tgp_bn) : short2(tgp_bn, k_remain);
+  // Move x and output to the correct block
+  auto wl = (const device uint8_t*)w;
+  x += y_row_long * K;
+  y += y_row_long * N + y_col_long;
+  wl += transpose ? y_col_long * K_w : y_col * bytes_per_pack / pack_factor;
+  scales += transpose ? y_col_long * K_g : y_col / group_size;
+  biases += transpose ? y_col_long * K_g : y_col / group_size;
+  constexpr short UM = 16;
+  constexpr short UN = 32;
+  constexpr short UK = 16;
+  constexpr short SM = BM / WM;
+  constexpr short SN = BN / WN;
+  constexpr short SK = 32;
+  constexpr short TM = SM / UM;
+  constexpr short TN = SN / UN;
+  constexpr short TK = SK / UK;
+  const short tm = SM * (simd_group_id / WN);
+  const short tn = SN * (simd_group_id % WN);
+  const short sgp_sm =
+      align_M ? SM : min(SM, short(max(0, (M - (y_row + tm)))));
+  const short sgp_sn =
+      align_N ? SN : min(SN, short(max(0, (N - (y_col + tn)))));
+  const bool is_unaligned_sm = align_M ? false : (sgp_sm != SM);
+  const bool is_unaligned_bn = align_N ? false : (tgp_bn != BN);
+  constexpr short BR = transpose ? TN : TK;
+  constexpr short BC = transpose ? TK : TN;
+  using AccumType = float;
+  using ASubTile = NAXSubTile<T, UM, UK>;
+  using BSubTile = NAXSubTile<T, transpose ? UN : UK, transpose ? UK : UN>;
+  using DSubTile = NAXSubTile<AccumType, UM, UN>;
+  // Do as many matmuls as necessary
+  uint32_t index;
+  short offset;
+  uint32_t index_next = indices[y_row];
+  short offset_next = 0;
+  int n = 0;
+  while (n < tgp_bm) {
+    n++;
+    offset = offset_next;
+    index = index_next;
+    offset_next = tgp_bm;
+    for (; n < tgp_bm; n++) {
+      if (indices[y_row + n] != index) {
+        offset_next = n;
+        index_next = indices[y_row + n];
+        break;
+      }
+    }
+    threadgroup_barrier(mem_flags::mem_none);
+    NAXTile<AccumType, TM, TN, DSubTile> Dtile;
+    Dtile.clear();
+    const device T* xn = x + tm * K;
+    // Prepare threadgroup loading operations
+    thread loader_w_t loader_w(
+        wl + index * stride_w,
+        scales + index * stride_s,
+        biases + index * stride_s,
+        transpose ? K : N,
+        Ws,
+        simd_group_id,
+        simd_lane_id);
+    dispatch_bool(align_M || !is_unaligned_sm, [&](auto kAlignedM) {
+      dispatch_bool(align_N || !is_unaligned_bn, [&](auto kAlignedN) {
+        for (int k = 0; k < K_it; k++) {
+          threadgroup_barrier(mem_flags::mem_threadgroup);
+          if constexpr (kAlignedN.value) {
+            loader_w.load_unsafe();
+          } else {
+            loader_w.load_safe(
+                transpose ? short2(BK, tgp_bn) : short2(tgp_bn, BK));
+          }
+          threadgroup_barrier(mem_flags::mem_threadgroup);
+          STEEL_PRAGMA_NO_UNROLL
+          for (int kk1 = 0; kk1 < BK; kk1 += SK) {
+            NAXTile<T, TM, TK, ASubTile> Atile;
+            NAXTile<T, BR, BC, BSubTile> Btile;
+            volatile int compiler_barrier;
+            if constexpr (kAlignedM.value) {
+              Atile.load(xn + kk1, K);
+            } else {
+              Atile.load_safe(xn + kk1, K, short2(SK, sgp_sm));
+            }
+            if constexpr (transpose) {
+              Btile.template load<T, BK_padded, 1>(Ws + tn * BK_padded + kk1);
+            } else {
+              Btile.template load<T, BN_padded, 1>(Ws + tn + kk1 * BN_padded);
+            }
+            tile_matmad_nax(
+                Dtile,
+                Atile,
+                metal::bool_constant<false>{},
+                Btile,
+                metal::bool_constant<transpose>{});
+            (void)compiler_barrier;
+          }
+          xn += BK;
+          loader_w.next();
+        }
+        if (!align_K) {
+          threadgroup_barrier(mem_flags::mem_threadgroup);
+          loader_w.load_safe(tile_w);
+          threadgroup_barrier(mem_flags::mem_threadgroup);
+          STEEL_PRAGMA_NO_UNROLL
+          for (int kk1 = 0; kk1 < BK; kk1 += SK) {
+            NAXTile<T, TM, TK, ASubTile> Atile;
+            NAXTile<T, BR, BC, BSubTile> Btile;
+            volatile int compiler_barrier;
+            const short psk = min(int(SK), max(0, (BK - kk1)));
+            Atile.load_safe(xn + kk1, K, short2(psk, sgp_sm));
+            if constexpr (transpose) {
+              Btile.template load<T, BK_padded, 1>(Ws + tn * BK_padded + kk1);
+            } else {
+              Btile.template load<T, BN_padded, 1>(Ws + tn + kk1 * BN_padded);
+            }
+            tile_matmad_nax(
+                Dtile,
+                Atile,
+                metal::bool_constant<false>{},
+                Btile,
+                metal::bool_constant<transpose>{});
+            (void)compiler_barrier;
+          }
+        }
+        threadgroup_barrier(mem_flags::mem_threadgroup);
+        const short m_lo_lim = min(int(sgp_sm), max(0, offset - tm));
+        const short m_hi_lim = min(int(sgp_sm), max(0, offset_next - tm));
+        // Store results to device memory
+        if constexpr (kAlignedN.value) {
+          if (m_lo_lim == 0 && m_hi_lim == SM) {
+            Dtile.store(y + tm * N + tn, N);
+          } else {
+            Dtile.store_slice(
+                y + tm * N + tn, N, short2(0, m_lo_lim), short2(SN, m_hi_lim));
+          }
+        } else {
+          Dtile.store_slice(
+              y + tm * N + tn,
+              N,
+              short2(0, m_lo_lim),
+              short2(sgp_sn, m_hi_lim));
+        }
+      });
+    });
+  }
+}