RubyGems - mlx-ruby-lm - Versions diffs - 0.30.7.1 - Mend

mlx-ruby-lm 0.30.7.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (138) hide show

checksums.yaml +7 -0
data/LICENSE.txt +21 -0
data/README.md +83 -0
data/exe/mlx_lm +7 -0
data/lib/mlx_lm/benchmark.rb +67 -0
data/lib/mlx_lm/chat_template.rb +41 -0
data/lib/mlx_lm/cli.rb +113 -0
data/lib/mlx_lm/config.rb +30 -0
data/lib/mlx_lm/convert_utils.rb +51 -0
data/lib/mlx_lm/generate.rb +204 -0
data/lib/mlx_lm/load_utils.rb +87 -0
data/lib/mlx_lm/model_args.rb +54 -0
data/lib/mlx_lm/models/activations.rb +46 -0
data/lib/mlx_lm/models/afm7.rb +131 -0
data/lib/mlx_lm/models/afmoe.rb +421 -0
data/lib/mlx_lm/models/apertus.rb +179 -0
data/lib/mlx_lm/models/baichuan_m1.rb +306 -0
data/lib/mlx_lm/models/bailing_moe.rb +399 -0
data/lib/mlx_lm/models/bailing_moe_linear.rb +91 -0
data/lib/mlx_lm/models/bitlinear_layers.rb +108 -0
data/lib/mlx_lm/models/bitnet.rb +176 -0
data/lib/mlx_lm/models/cache.rb +792 -0
data/lib/mlx_lm/models/cohere.rb +150 -0
data/lib/mlx_lm/models/cohere2.rb +224 -0
data/lib/mlx_lm/models/dbrx.rb +286 -0
data/lib/mlx_lm/models/deepseek.rb +239 -0
data/lib/mlx_lm/models/deepseek_v2.rb +108 -0
data/lib/mlx_lm/models/deepseek_v3.rb +34 -0
data/lib/mlx_lm/models/deepseek_v32.rb +45 -0
data/lib/mlx_lm/models/dots1.rb +292 -0
data/lib/mlx_lm/models/ernie4_5.rb +165 -0
data/lib/mlx_lm/models/ernie4_5_moe.rb +97 -0
data/lib/mlx_lm/models/exaone.rb +169 -0
data/lib/mlx_lm/models/exaone4.rb +233 -0
data/lib/mlx_lm/models/exaone_moe.rb +421 -0
data/lib/mlx_lm/models/falcon_h1.rb +102 -0
data/lib/mlx_lm/models/gated_delta.rb +136 -0
data/lib/mlx_lm/models/gemma.rb +159 -0
data/lib/mlx_lm/models/gemma2.rb +198 -0
data/lib/mlx_lm/models/gemma3.rb +85 -0
data/lib/mlx_lm/models/gemma3_text.rb +270 -0
data/lib/mlx_lm/models/gemma3n.rb +79 -0
data/lib/mlx_lm/models/glm.rb +164 -0
data/lib/mlx_lm/models/glm4.rb +180 -0
data/lib/mlx_lm/models/glm4_moe.rb +343 -0
data/lib/mlx_lm/models/glm4_moe_lite.rb +131 -0
data/lib/mlx_lm/models/glm_moe_dsa.rb +26 -0
data/lib/mlx_lm/models/gpt2.rb +166 -0
data/lib/mlx_lm/models/gpt_bigcode.rb +154 -0
data/lib/mlx_lm/models/gpt_neox.rb +178 -0
data/lib/mlx_lm/models/gpt_oss.rb +319 -0
data/lib/mlx_lm/models/granite.rb +170 -0
data/lib/mlx_lm/models/granitemoe.rb +58 -0
data/lib/mlx_lm/models/granitemoehybrid.rb +178 -0
data/lib/mlx_lm/models/helium.rb +158 -0
data/lib/mlx_lm/models/hunyuan.rb +378 -0
data/lib/mlx_lm/models/hunyuan_v1_dense.rb +235 -0
data/lib/mlx_lm/models/internlm2.rb +160 -0
data/lib/mlx_lm/models/internlm3.rb +237 -0
data/lib/mlx_lm/models/iquestloopcoder.rb +261 -0
data/lib/mlx_lm/models/jamba.rb +158 -0
data/lib/mlx_lm/models/kimi_k25.rb +98 -0
data/lib/mlx_lm/models/kimi_linear.rb +124 -0
data/lib/mlx_lm/models/kimi_vl.rb +93 -0
data/lib/mlx_lm/models/klear.rb +283 -0
data/lib/mlx_lm/models/lfm2.rb +120 -0
data/lib/mlx_lm/models/lfm2_moe.rb +421 -0
data/lib/mlx_lm/models/lfm2_vl.rb +67 -0
data/lib/mlx_lm/models/lille_130m.rb +148 -0
data/lib/mlx_lm/models/llama.rb +183 -0
data/lib/mlx_lm/models/llama4.rb +357 -0
data/lib/mlx_lm/models/llama4_text.rb +195 -0
data/lib/mlx_lm/models/longcat_flash.rb +153 -0
data/lib/mlx_lm/models/longcat_flash_ngram.rb +137 -0
data/lib/mlx_lm/models/mamba.rb +301 -0
data/lib/mlx_lm/models/mamba2.rb +292 -0
data/lib/mlx_lm/models/mimo.rb +174 -0
data/lib/mlx_lm/models/mimo_v2_flash.rb +491 -0
data/lib/mlx_lm/models/minicpm.rb +169 -0
data/lib/mlx_lm/models/minicpm3.rb +237 -0
data/lib/mlx_lm/models/minimax.rb +282 -0
data/lib/mlx_lm/models/ministral3.rb +304 -0
data/lib/mlx_lm/models/mistral3.rb +84 -0
data/lib/mlx_lm/models/mixtral.rb +192 -0
data/lib/mlx_lm/models/mla.rb +75 -0
data/lib/mlx_lm/models/nanochat.rb +167 -0
data/lib/mlx_lm/models/nemotron.rb +202 -0
data/lib/mlx_lm/models/nemotron_h.rb +212 -0
data/lib/mlx_lm/models/nemotron_nas.rb +404 -0
data/lib/mlx_lm/models/olmo.rb +165 -0
data/lib/mlx_lm/models/olmo2.rb +169 -0
data/lib/mlx_lm/models/olmo3.rb +254 -0
data/lib/mlx_lm/models/olmoe.rb +64 -0
data/lib/mlx_lm/models/openelm.rb +208 -0
data/lib/mlx_lm/models/phi.rb +156 -0
data/lib/mlx_lm/models/phi3.rb +171 -0
data/lib/mlx_lm/models/phi3small.rb +196 -0
data/lib/mlx_lm/models/phimoe.rb +206 -0
data/lib/mlx_lm/models/phixtral.rb +208 -0
data/lib/mlx_lm/models/pipeline.rb +37 -0
data/lib/mlx_lm/models/pixtral.rb +47 -0
data/lib/mlx_lm/models/plamo.rb +169 -0
data/lib/mlx_lm/models/plamo2.rb +173 -0
data/lib/mlx_lm/models/qwen.rb +175 -0
data/lib/mlx_lm/models/qwen2.rb +162 -0
data/lib/mlx_lm/models/qwen2_moe.rb +189 -0
data/lib/mlx_lm/models/qwen2_vl.rb +48 -0
data/lib/mlx_lm/models/qwen3.rb +167 -0
data/lib/mlx_lm/models/qwen3_5.rb +69 -0
data/lib/mlx_lm/models/qwen3_5_moe.rb +54 -0
data/lib/mlx_lm/models/qwen3_moe.rb +166 -0
data/lib/mlx_lm/models/qwen3_next.rb +147 -0
data/lib/mlx_lm/models/qwen3_vl.rb +48 -0
data/lib/mlx_lm/models/qwen3_vl_moe.rb +92 -0
data/lib/mlx_lm/models/recurrent_gemma.rb +444 -0
data/lib/mlx_lm/models/rope_utils.rb +316 -0
data/lib/mlx_lm/models/rwkv7.rb +101 -0
data/lib/mlx_lm/models/seed_oss.rb +167 -0
data/lib/mlx_lm/models/smollm3.rb +89 -0
data/lib/mlx_lm/models/solar_open.rb +79 -0
data/lib/mlx_lm/models/ssm.rb +162 -0
data/lib/mlx_lm/models/stablelm.rb +160 -0
data/lib/mlx_lm/models/starcoder2.rb +161 -0
data/lib/mlx_lm/models/step3p5.rb +479 -0
data/lib/mlx_lm/models/switch_layers.rb +221 -0
data/lib/mlx_lm/models/telechat3.rb +192 -0
data/lib/mlx_lm/models/youtu_llm.rb +230 -0
data/lib/mlx_lm/models.rb +33 -0
data/lib/mlx_lm/perplexity.rb +48 -0
data/lib/mlx_lm/quantize.rb +131 -0
data/lib/mlx_lm/sample_utils.rb +159 -0
data/lib/mlx_lm/server.rb +190 -0
data/lib/mlx_lm/tokenizer_utils.rb +158 -0
data/lib/mlx_lm/tuner/lora.rb +165 -0
data/lib/mlx_lm/version.rb +3 -0
data/lib/mlx_lm/weight_utils.rb +170 -0
data/lib/mlx_lm.rb +135 -0
metadata +272 -0

checksums.yaml ADDED Viewed

@@ -0,0 +1,7 @@
+---
+SHA256:
+  metadata.gz: 9a305e7fa3e70c61d29f8e997a98d4f7da6ff344d2df698778f56980dae27a34
+  data.tar.gz: f81553b3050391f1585f5ba6822c1cd28936f5ddaccc0b852bcfae30ea41bdf4
+SHA512:
+  metadata.gz: d5e6be331e95c5323b7fdb93b8defb2242a5ad969269e8e5442cc8f499d1fb2beabe03f81d14e7ee8abc3c61bf5d144ea5755bda7462cfdb9bcddb0afe9695f0
+  data.tar.gz: b333ba48c0e390b217ec4320e149f03b1e507caefe856701bf85245fa301b55d0fec2d75ecc2bdd92e367b49e3c82454b1b0baffe1d9c161223fb9580635a20e

data/LICENSE.txt ADDED Viewed

@@ -0,0 +1,21 @@
+The MIT License (MIT)
+Copyright (c) 2025 Alex Skryl
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in
+all copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
+THE SOFTWARE.

data/README.md ADDED Viewed

@@ -0,0 +1,83 @@
+# mlx-ruby-lm
+Ruby LLM inference toolkit built on the `mlx` gem.
+## Index
+- [Documentation Index](docs/index.md)
+- [Installation](docs/installation.md)
+- [CLI Usage](docs/cli.md)
+- [Ruby APIs](docs/ruby-apis.md)
+- [Models](docs/models.md)
+For full reference pages and deep dives, start at [docs/index.md](docs/index.md).
+## Installation
+```bash
+gem install mlx-ruby-lm
+```
+Or add it to a project:
+```bash
+bundle add mlx-ruby-lm
+```
+See [docs/installation.md](docs/installation.md) for requirements and source installs.
+## CLI Usage
+Executable: `mlx_lm`
+Commands:
+- `mlx_lm generate`
+- `mlx_lm chat`
+- `mlx_lm server`
+Quick examples:
+```bash
+mlx_lm generate --model /path/to/model --prompt "Hello"
+mlx_lm chat --model /path/to/model --system-prompt "You are concise."
+mlx_lm server --model /path/to/model --host 127.0.0.1 --port 8080
+```
+See [docs/cli.md](docs/cli.md) for options, defaults, and current parser/behavior caveats.
+## High-Level Ruby API Usage
+```ruby
+require "mlx"
+require "mlx_lm"
+model, tokenizer = MlxLm::LoadUtils.load("/path/to/model")
+text = MlxLm::Generate.generate(model, tokenizer, "Hello", max_tokens: 64)
+puts text
+```
+Streaming:
+```ruby
+MlxLm::Generate.stream_generate(model, tokenizer, "Hello", max_tokens: 64).each do |resp|
+  print resp.text
+end
+puts
+```
+See [docs/ruby-apis.md](docs/ruby-apis.md) for the full API inventory.
+## High-Level Model Usage
+`LoadUtils.load` expects a local model directory with files such as `config.json`,
+`tokenizer.json`, and `model*.safetensors`.
+To inspect supported model keys at runtime:
+```ruby
+require "mlx_lm"
+puts MlxLm::Models::REGISTRY.keys.sort
+```
+See [docs/models.md](docs/models.md) for full registry keys and remapping behavior.

data/exe/mlx_lm ADDED Viewed

@@ -0,0 +1,7 @@
+#!/usr/bin/env ruby
+# frozen_string_literal: true
+require "mlx"
+require "mlx_lm"
+MlxLm::CLI.run(ARGV)

data/lib/mlx_lm/benchmark.rb ADDED Viewed

@@ -0,0 +1,67 @@
+module MlxLm
+  module Benchmark
+    module_function
+    # Measure generation performance (tokens/sec).
+    def measure_generation(model, prompt_tokens: 32, gen_tokens: 64, vocab_size: 32000)
+      mx = MLX::Core
+      # Create random prompt tokens
+      prompt = mx.random_uniform([prompt_tokens], 0.0, (vocab_size - 1).to_f, mx.float32).astype(mx.int32)
+      mx.eval(prompt)
+      # Create cache
+      cache = Cache.make_prompt_cache(model)
+      # Measure prompt processing
+      prompt_input = prompt.reshape([1, prompt_tokens])
+      prompt_start = Process.clock_gettime(Process::CLOCK_MONOTONIC)
+      logits = model.call(prompt_input, cache: cache)
+      mx.eval(logits)
+      mx.eval(*cache.map(&:state).flatten.compact)
+      prompt_elapsed = Process.clock_gettime(Process::CLOCK_MONOTONIC) - prompt_start
+      prompt_tps = prompt_tokens.to_f / [prompt_elapsed, 1e-9].max
+      # Get first generated token
+      last_logits = logits.reshape([prompt_tokens, logits.shape[-1]])
+      # Take last position
+      last_pos = mx.split(last_logits, [prompt_tokens - 1], 0)[1]
+      y = mx.argmax(last_pos, -1)
+      mx.eval(y)
+      # Measure generation
+      gen_start = Process.clock_gettime(Process::CLOCK_MONOTONIC)
+      gen_tokens.times do
+        y_input = y.reshape([1, 1])
+        logits = model.call(y_input, cache: cache)
+        mx.eval(logits)
+        mx.eval(*cache.map(&:state).flatten.compact)
+        y = mx.argmax(logits.reshape([1, logits.shape[-1]]), -1)
+        mx.eval(y)
+      end
+      gen_elapsed = Process.clock_gettime(Process::CLOCK_MONOTONIC) - gen_start
+      gen_tps = gen_tokens.to_f / [gen_elapsed, 1e-9].max
+      {
+        prompt_tokens: prompt_tokens,
+        prompt_time: prompt_elapsed,
+        prompt_tps: prompt_tps,
+        generation_tokens: gen_tokens,
+        generation_time: gen_elapsed,
+        generation_tps: gen_tps,
+      }
+    end
+    # Get model statistics (parameter count, etc.)
+    def model_stats(model)
+      params = MLX::Utils.tree_flatten(model.parameters)
+      total = 0
+      params.each { |_, v| total += v.size }
+      {
+        total_params: total,
+        num_layers: model.respond_to?(:layers) ? model.layers.length : 0,
+      }
+    end
+  end
+end

data/lib/mlx_lm/chat_template.rb ADDED Viewed

@@ -0,0 +1,41 @@
+module MlxLm
+  module ChatTemplate
+    module_function
+    # Apply a simple chat template to format messages into a prompt string.
+    # This is a default/fallback template. Model-specific templates (like
+    # Jinja-based ones from tokenizer_config.json) can override this.
+    def apply(messages, template: :default)
+      case template
+      when :default
+        apply_default(messages)
+      when :chatml
+        apply_chatml(messages)
+      else
+        apply_default(messages)
+      end
+    end
+    # Default template: ChatML-like format
+    # <|im_start|>system
+    # content<|im_end|>
+    # <|im_start|>user
+    # content<|im_end|>
+    # <|im_start|>assistant
+    def apply_default(messages)
+      parts = []
+      messages.each do |msg|
+        role = msg["role"] || msg[:role]
+        content = msg["content"] || msg[:content]
+        parts << "<|im_start|>#{role}\n#{content}<|im_end|>"
+      end
+      parts << "<|im_start|>assistant"
+      parts.join("\n")
+    end
+    # ChatML template (same as default, widely used)
+    def apply_chatml(messages)
+      apply_default(messages)
+    end
+  end
+end

data/lib/mlx_lm/cli.rb ADDED Viewed

@@ -0,0 +1,113 @@
+require "optparse"
+module MlxLm
+  module CLI
+    COMMANDS = %w[generate chat server].freeze
+    module_function
+    def parse_args(argv)
+      command = argv.shift
+      unless COMMANDS.include?(command)
+        raise ArgumentError, "Unknown command '#{command}'. Valid commands: #{COMMANDS.join(', ')}"
+      end
+      args = default_args.merge(command: command)
+      parser = OptionParser.new do |opts|
+        opts.banner = "Usage: mlx_lm #{command} [options]"
+        opts.on("--model MODEL", "Model path or HuggingFace ID") { |v| args[:model] = v }
+        opts.on("--prompt PROMPT", "Input prompt") { |v| args[:prompt] = v }
+        opts.on("--max-tokens N", Integer, "Maximum tokens to generate") { |v| args[:max_tokens] = v }
+        opts.on("--temp TEMP", Float, "Sampling temperature") { |v| args[:temp] = v }
+        opts.on("--top-p P", Float, "Top-p (nucleus) sampling") { |v| args[:top_p] = v }
+        opts.on("--seed N", Integer, "Random seed") { |v| args[:seed] = v }
+        opts.on("--repetition-penalty F", Float, "Repetition penalty") { |v| args[:repetition_penalty] = v }
+        opts.on("--repetition-context-size N", Integer, "Repetition context size") { |v| args[:repetition_context_size] = v }
+        opts.on("--host HOST", "Server host") { |v| args[:host] = v }
+        opts.on("--port PORT", Integer, "Server port") { |v| args[:port] = v }
+        opts.on("--system-prompt PROMPT", "System prompt for chat") { |v| args[:system_prompt] = v }
+        opts.on("--verbose", "Verbose output") { args[:verbose] = true }
+      end
+      parser.parse!(argv)
+      args
+    end
+    def default_args
+      {
+        command: nil,
+        model: nil,
+        prompt: "",
+        max_tokens: 256,
+        temp: 0.0,
+        top_p: 1.0,
+        seed: nil,
+        repetition_penalty: nil,
+        repetition_context_size: 20,
+        host: "127.0.0.1",
+        port: 8080,
+        system_prompt: nil,
+        verbose: false,
+      }
+    end
+    def run(argv = ARGV)
+      args = parse_args(argv.dup)
+      case args[:command]
+      when "generate"
+        run_generate(args)
+      when "chat"
+        run_chat(args)
+      when "server"
+        run_server(args)
+      end
+    end
+    def run_generate(args)
+      model, tokenizer = LoadUtils.load(args[:model])
+      sampler = SampleUtils.make_sampler(temp: args[:temp], top_p: args[:top_p])
+      text = Generate.generate(model, tokenizer, args[:prompt],
+        max_tokens: args[:max_tokens], sampler: sampler, verbose: args[:verbose])
+      puts text unless args[:verbose]
+    end
+    def run_chat(args)
+      model, tokenizer = LoadUtils.load(args[:model])
+      messages = []
+      if args[:system_prompt]
+        messages << { "role" => "system", "content" => args[:system_prompt] }
+      end
+      loop do
+        print "> "
+        $stdout.flush
+        input = $stdin.gets
+        break if input.nil?
+        input = input.strip
+        break if input.empty? || input == "exit" || input == "quit"
+        messages << { "role" => "user", "content" => input }
+        prompt = ChatTemplate.apply(messages)
+        sampler = SampleUtils.make_sampler(temp: args[:temp])
+        text = ""
+        Generate.stream_generate(model, tokenizer, prompt,
+          max_tokens: args[:max_tokens], sampler: sampler).each do |resp|
+          print resp.text
+          $stdout.flush
+          text += resp.text
+        end
+        puts
+        messages << { "role" => "assistant", "content" => text }
+      end
+    end
+    def run_server(args)
+      Server.start(model_path: args[:model], host: args[:host], port: args[:port])
+    end
+  end
+end

data/lib/mlx_lm/config.rb ADDED Viewed

@@ -0,0 +1,30 @@
+require "json"
+module MlxLm
+  module Config
+    module_function
+    # Load model config from a directory containing config.json
+    # and optionally generation_config.json.
+    # Mirrors Python mlx_lm.utils.load_config
+    def load(model_path)
+      config_path = File.join(model_path, "config.json")
+      config = JSON.parse(File.read(config_path))
+      gen_config_path = File.join(model_path, "generation_config.json")
+      if File.exist?(gen_config_path)
+        begin
+          gen_config = JSON.parse(File.read(gen_config_path))
+        rescue JSON::ParserError
+          gen_config = {}
+        end
+        if (eos = gen_config["eos_token_id"])
+          config["eos_token_id"] = eos
+        end
+      end
+      config
+    end
+  end
+end

data/lib/mlx_lm/convert_utils.rb ADDED Viewed

@@ -0,0 +1,51 @@
+module MlxLm
+  module ConvertUtils
+    DTYPE_MAP = {
+      "float32" => :float32,
+      "float16" => :float16,
+      "bfloat16" => :bfloat16,
+      "int8" => :int8,
+      "int32" => :int32,
+    }.freeze
+    module_function
+    # Convert an MLX array to a different dtype.
+    def convert_dtype(array, target_dtype)
+      if target_dtype.is_a?(MLX::Core::Dtype)
+        return array.astype(target_dtype)
+      end
+      dtype_sym = target_dtype.is_a?(Symbol) ? target_dtype : DTYPE_MAP[target_dtype.to_s]
+      raise ArgumentError, "Unknown dtype: #{target_dtype}" unless dtype_sym
+      array.astype(MLX::Core::Dtype.new(dtype_sym))
+    end
+    # Count total number of parameters in a model.
+    def count_parameters(model)
+      params = MLX::Utils.tree_flatten(model.parameters)
+      total = 0
+      params.each { |_, v| total += v.size }
+      total
+    end
+    # Estimate total model size in bytes.
+    def model_size_bytes(model)
+      mx = MLX::Core
+      params = MLX::Utils.tree_flatten(model.parameters)
+      total = 0
+      params.each do |_, v|
+        bytes_per_elem = case v.dtype
+                         when mx.float32 then 4
+                         when mx.float16, mx.bfloat16 then 2
+                         when mx.int32 then 4
+                         when mx.int8, mx.uint8 then 1
+                         when mx.int16, mx.uint16 then 2
+                         when mx.int64 then 8
+                         else 4
+                         end
+        total += v.size * bytes_per_elem
+      end
+      total
+    end
+  end
+end

data/lib/mlx_lm/generate.rb ADDED Viewed

@@ -0,0 +1,204 @@
+module MlxLm
+  # Response object yielded during streaming generation
+  GenerationResponse = Struct.new(
+    :text,
+    :token,
+    :logprobs,
+    :prompt_tokens,
+    :prompt_tps,
+    :generation_tokens,
+    :generation_tps,
+    :peak_memory,
+    :finish_reason,
+    keyword_init: true
+  )
+  module Generate
+    module_function
+    # A generator producing token ids based on the given prompt from the model.
+    # Yields [token_id, logprobs] for each generated token.
+    def generate_step(
+      prompt,
+      model,
+      max_tokens: 256,
+      sampler: nil,
+      logits_processors: nil,
+      max_kv_size: nil,
+      prompt_cache: nil,
+      prefill_step_size: 2048
+    )
+      mx = MLX::Core
+      raise ArgumentError, "prompt must not be empty" if prompt.size == 0
+      tokens = nil
+      # Create the KV cache for generation
+      prompt_cache ||= Cache.make_prompt_cache(model, max_kv_size: max_kv_size)
+      sampler ||= ->(x) { mx.argmax(x, -1) }
+      model_call = ->(input_tokens_2d) {
+        model.call(input_tokens_2d, cache: prompt_cache)
+      }
+      step = ->(input_tokens_1d) {
+        seq_len = input_tokens_1d.size
+        input_2d = input_tokens_1d.reshape([1, seq_len])
+        logits = model_call.call(input_2d)
+        # Take the last token's logits
+        last_dim = logits.shape[1]
+        if last_dim > 1
+          logits = mx.split(logits, [last_dim - 1], 1)[1]
+        end
+        vocab_size = logits.shape[-1]
+        logits = logits.reshape([1, vocab_size])
+        if logits_processors && input_tokens_1d.size > 0
+          tokens = if tokens.nil?
+            input_tokens_1d
+          else
+            mx.concatenate([tokens, input_tokens_1d], 0)
+          end
+          logits_processors.each { |processor| logits = processor.call(tokens, logits) }
+        end
+        logprobs = logits - mx.logsumexp(logits, -1, true)
+        sampled = sampler.call(logprobs)
+        [sampled, logprobs.reshape([vocab_size])]
+      }
+      # Prompt prefilling - process prompt in chunks
+      prompt_arr = prompt.is_a?(::Array) ? mx.array(prompt, dtype: mx.uint32) : prompt
+      total_prompt_tokens = prompt_arr.size
+      # Process prompt chunks (all but last token)
+      while total_prompt_tokens > 1
+        remaining = total_prompt_tokens - 1
+        n_to_process = [prefill_step_size, remaining].min
+        chunk = mx.split(prompt_arr, [n_to_process], 0)[0]
+        chunk_len = chunk.size
+        model_call.call(chunk.reshape([1, chunk_len]))
+        mx.eval(*prompt_cache.map(&:state).flatten.compact)
+        prompt_arr = mx.split(prompt_arr, [n_to_process], 0)[1]
+        total_prompt_tokens -= n_to_process
+      end
+      # Process last token and get first generated token
+      y, logprobs = step.call(prompt_arr)
+      mx.eval(y, logprobs)
+      Enumerator.new do |yielder|
+        n = 0
+        loop do
+          break if n == max_tokens
+          y_1d = y.ndim > 1 ? y.reshape([y.size]) : y
+          next_y, next_logprobs = step.call(y_1d)
+          mx.eval(next_y, next_logprobs)
+          yielder.yield [y.item, logprobs]
+          y, logprobs = next_y, next_logprobs
+          n += 1
+        end
+      end
+    end
+    # Stream text generation from the model.
+    # Yields GenerationResponse objects with text segments.
+    def stream_generate(model, tokenizer, prompt, max_tokens: 256, **kwargs)
+      tokenizer = TokenizerWrapper.new(tokenizer) unless tokenizer.is_a?(TokenizerWrapper)
+      unless prompt.is_a?(MLX::Core::Array)
+        if prompt.is_a?(String)
+          prompt = tokenizer.encode(prompt)
+        end
+        prompt = MLX::Core.array(prompt, dtype: MLX::Core.uint32)
+      end
+      detokenizer = tokenizer.detokenizer
+      token_generator = generate_step(prompt, model, max_tokens: max_tokens, **kwargs)
+      tic = Process.clock_gettime(Process::CLOCK_MONOTONIC)
+      prompt_tps = 0.0
+      Enumerator.new do |yielder|
+        n = 0
+        last_token = nil
+        token_generator.each do |token, logprobs|
+          if n == 0
+            prompt_time = Process.clock_gettime(Process::CLOCK_MONOTONIC) - tic
+            prompt_tps = prompt.size.to_f / [prompt_time, 1e-9].max
+            tic = Process.clock_gettime(Process::CLOCK_MONOTONIC)
+          end
+          last_token = token
+          if tokenizer.eos_token_ids.include?(token)
+            detokenizer.finalize
+            elapsed = [Process.clock_gettime(Process::CLOCK_MONOTONIC) - tic, 1e-9].max
+            yielder.yield GenerationResponse.new(
+              text: detokenizer.last_segment,
+              token: token,
+              logprobs: logprobs,
+              prompt_tokens: prompt.size,
+              prompt_tps: prompt_tps,
+              generation_tokens: n + 1,
+              generation_tps: (n + 1).to_f / elapsed,
+              peak_memory: 0.0,
+              finish_reason: "stop"
+            )
+            break
+          end
+          detokenizer.add_token(token)
+          elapsed = [Process.clock_gettime(Process::CLOCK_MONOTONIC) - tic, 1e-9].max
+          yielder.yield GenerationResponse.new(
+            text: detokenizer.last_segment,
+            token: token,
+            logprobs: logprobs,
+            prompt_tokens: prompt.size,
+            prompt_tps: prompt_tps,
+            generation_tokens: n + 1,
+            generation_tps: (n + 1).to_f / elapsed,
+            peak_memory: 0.0,
+            finish_reason: ((n + 1) == max_tokens ? "length" : nil)
+          )
+          n += 1
+          break if (n + 1) == max_tokens
+        end
+      end
+    end
+    # Non-streaming generation, returns complete text.
+    def generate(model, tokenizer, prompt, verbose: false, **kwargs)
+      text = ""
+      response = nil
+      stream_generate(model, tokenizer, prompt, **kwargs).each do |resp|
+        text += resp.text
+        response = resp
+        if verbose
+          print resp.text
+          $stdout.flush
+        end
+      end
+      if verbose
+        puts
+        puts "=" * 10
+        if text.empty?
+          puts "No text generated for this prompt"
+          return text
+        end
+        puts "Prompt: #{response.prompt_tokens} tokens, #{'%.3f' % response.prompt_tps} tokens-per-sec"
+        puts "Generation: #{response.generation_tokens} tokens, #{'%.3f' % response.generation_tps} tokens-per-sec"
+      end
+      text
+    end
+  end
+end