RubyGems - llm.rb - Versions diffs - 0.2.1 → 0.3.0 - Mend

llm.rb 0.2.1 → 0.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (65) hide show

checksums.yaml +4 -4
data/README.md +264 -110
data/lib/llm/buffer.rb +83 -0
data/lib/llm/chat.rb +131 -0
data/lib/llm/file.rb +26 -40
data/lib/llm/http_client.rb +10 -5
data/lib/llm/message.rb +14 -8
data/lib/llm/mime.rb +54 -0
data/lib/llm/multipart.rb +98 -0
data/lib/llm/provider.rb +96 -19
data/lib/llm/providers/anthropic/error_handler.rb +2 -0
data/lib/llm/providers/anthropic/format.rb +2 -0
data/lib/llm/providers/anthropic/response_parser.rb +3 -1
data/lib/llm/providers/anthropic.rb +14 -5
data/lib/llm/providers/gemini/audio.rb +77 -0
data/lib/llm/providers/gemini/error_handler.rb +2 -0
data/lib/llm/providers/gemini/files.rb +160 -0
data/lib/llm/providers/gemini/format.rb +12 -6
data/lib/llm/providers/gemini/images.rb +99 -0
data/lib/llm/providers/gemini/response_parser.rb +27 -1
data/lib/llm/providers/gemini.rb +62 -6
data/lib/llm/providers/ollama/error_handler.rb +2 -0
data/lib/llm/providers/ollama/format.rb +13 -5
data/lib/llm/providers/ollama/response_parser.rb +3 -1
data/lib/llm/providers/ollama.rb +30 -7
data/lib/llm/providers/openai/audio.rb +97 -0
data/lib/llm/providers/openai/error_handler.rb +2 -0
data/lib/llm/providers/openai/files.rb +148 -0
data/lib/llm/providers/openai/format.rb +21 -8
data/lib/llm/providers/openai/images.rb +109 -0
data/lib/llm/providers/openai/response_parser.rb +58 -5
data/lib/llm/providers/openai/responses.rb +78 -0
data/lib/llm/providers/openai.rb +52 -6
data/lib/llm/providers/voyageai.rb +2 -2
data/lib/llm/response/audio.rb +13 -0
data/lib/llm/response/audio_transcription.rb +14 -0
data/lib/llm/response/audio_translation.rb +14 -0
data/lib/llm/response/download_file.rb +15 -0
data/lib/llm/response/file.rb +42 -0
data/lib/llm/response/filelist.rb +18 -0
data/lib/llm/response/image.rb +29 -0
data/lib/llm/response/output.rb +56 -0
data/lib/llm/response.rb +18 -6
data/lib/llm/utils.rb +19 -0
data/lib/llm/version.rb +1 -1
data/lib/llm.rb +5 -2
data/llm.gemspec +1 -6
data/spec/anthropic/completion_spec.rb +1 -1
data/spec/gemini/completion_spec.rb +1 -1
data/spec/gemini/conversation_spec.rb +31 -0
data/spec/gemini/files_spec.rb +124 -0
data/spec/gemini/images_spec.rb +47 -0
data/spec/llm/conversation_spec.rb +101 -61
data/spec/ollama/completion_spec.rb +1 -1
data/spec/ollama/conversation_spec.rb +31 -0
data/spec/openai/audio_spec.rb +55 -0
data/spec/openai/completion_spec.rb +1 -1
data/spec/openai/files_spec.rb +150 -0
data/spec/openai/images_spec.rb +95 -0
data/spec/openai/responses_spec.rb +51 -0
data/spec/setup.rb +8 -0
metadata +31 -49
data/LICENSE.txt +0 -21
data/lib/llm/conversation.rb +0 -90
data/lib/llm/message_queue.rb +0 -54

data/lib/llm/providers/gemini/files.rb ADDED Viewed

@@ -0,0 +1,160 @@
+# frozen_string_literal: true
+class LLM::Gemini
+  ##
+  # The {LLM::Gemini::Files LLM::Gemini::Files} class provides a files
+  # object for interacting with [Gemini's Files API](https://ai.google.dev/gemini-api/docs/files).
+  # The files API allows a client to reference media files in prompts
+  # where they can be referenced by their URL.
+  #
+  # The files API is intended to preserve bandwidth and latency,
+  # especially for large files but it can be helpful for smaller files
+  # as well because it does not require the client to include a file
+  # in the prompt over and over again (which could be the case in a
+  # multi-turn conversation).
+  #
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm  = LLM.gemini(ENV["KEY"])
+  #   file = llm.files.create file: LLM::File("/audio/haiku.mp3")
+  #   bot = LLM::Chat.new(llm).lazy
+  #   bot.chat(file)
+  #   bot.chat("Describe the audio file I sent to you")
+  #   bot.chat("The audio file is the first message I sent to you.")
+  #   bot.messages.select(&:assistant?).each { print "[#{_1.role}]", _1.content, "\n" }
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm  = LLM.gemini(ENV["KEY"])
+  #   file = llm.files.create file: LLM::File("/audio/haiku.mp3")
+  #   bot = LLM::Chat.new(llm).lazy
+  #   bot.chat(["Describe the audio file I sent to you", file])
+  #   bot.messages.select(&:assistant?).each { print "[#{_1.role}]", _1.content, "\n" }
+  class Files
+    ##
+    # Returns a new Files object
+    # @param provider [LLM::Provider]
+    # @return [LLM::Gemini::Files]
+    def initialize(provider)
+      @provider = provider
+    end
+    ##
+    # List all files
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.files.all
+    #   res.each do |file|
+    #     print "name: ", file.name, "\n"
+    #   end
+    # @see https://ai.google.dev/gemini-api/docs/files Gemini docs
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::HTTPClient#request)
+    # @return [LLM::Response::FileList]
+    def all(**params)
+      query = URI.encode_www_form(params.merge!(key: secret))
+      req = Net::HTTP::Get.new("/v1beta/files?#{query}", headers)
+      res = request(http, req)
+      LLM::Response::FileList.new(res).tap { |filelist|
+        files = filelist.body["files"]&.map do |file|
+          file = file.transform_keys { snakecase(_1) }
+          OpenStruct.from_hash(file)
+        end || []
+        filelist.files = files
+      }
+    end
+    ##
+    # Create a file
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.files.create file: LLM::File("/audio/haiku.mp3"),
+    # @see https://ai.google.dev/gemini-api/docs/files Gemini docs
+    # @param [File] file The file
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::HTTPClient#request)
+    # @return [LLM::Response::File]
+    def create(file:, **params)
+      req = Net::HTTP::Post.new(request_upload_url(file:), {})
+      req["content-length"] = file.bytesize
+      req["X-Goog-Upload-Offset"] = 0
+      req["X-Goog-Upload-Command"] = "upload, finalize"
+      req.body = File.binread(file.path)
+      res = request(http, req)
+      LLM::Response::File.new(res)
+    end
+    ##
+    # Get a file
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.files.get(file: "files/1234567890")
+    #   print "name: ", res.name, "\n"
+    # @see https://ai.google.dev/gemini-api/docs/files Gemini docs
+    # @param [#name, String] file The file to get
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::HTTPClient#request)
+    # @return [LLM::Response::File]
+    def get(file:, **params)
+      file_id = file.respond_to?(:name) ? file.name : file.to_s
+      query = URI.encode_www_form(params.merge!(key: secret))
+      req = Net::HTTP::Get.new("/v1beta/#{file_id}?#{query}", headers)
+      res = request(http, req)
+      LLM::Response::File.new(res)
+    end
+    ##
+    # Delete a file
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.files.delete(file: "files/1234567890")
+    # @see https://ai.google.dev/gemini-api/docs/files Gemini docs
+    # @param [#name, String] file The file to delete
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::HTTPClient#request)
+    # @return [LLM::Response::File]
+    def delete(file:, **params)
+      file_id = file.respond_to?(:name) ? file.name : file.to_s
+      query = URI.encode_www_form(params.merge!(key: secret))
+      req = Net::HTTP::Delete.new("/v1beta/#{file_id}?#{query}", headers)
+      request(http, req)
+    end
+    ##
+    # @raise [NotImplementedError]
+    #  This method is not implemented by Gemini
+    def download
+      raise NotImplementedError
+    end
+    private
+    include LLM::Utils
+    def request_upload_url(file:)
+      req = Net::HTTP::Post.new("/upload/v1beta/files?key=#{secret}", headers)
+      req["X-Goog-Upload-Protocol"] = "resumable"
+      req["X-Goog-Upload-Command"] = "start"
+      req["X-Goog-Upload-Header-Content-Length"] = file.bytesize
+      req["X-Goog-Upload-Header-Content-Type"] = file.mime_type
+      req.body = JSON.dump(file: {display_name: File.basename(file.path)})
+      res = request(http, req)
+      res["x-goog-upload-url"]
+    end
+    def http
+      @provider.instance_variable_get(:@http)
+    end
+    def secret
+      @provider.instance_variable_get(:@secret)
+    end
+    [:headers, :request].each do |m|
+      define_method(m) { |*args, &b| @provider.send(m, *args, &b) }
+    end
+  end
+end

data/lib/llm/providers/gemini/format.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 # frozen_string_literal: true
 class LLM::Gemini
+  ##
+  # @private
   module Format
     ##
     # @param [Array<LLM::Message>] messages
@@ -19,16 +21,20 @@ class LLM::Gemini
     private
     ##
-    # @param [String, LLM::File] content
+    # @param [String, Array, LLM::Response::File, LLM::File] content
     #  The content to format
-    # @return [String, Hash]
+    # @return [Hash]
     #  The formatted content
     def format_content(content)
-      if LLM::File === content
+      case content
+      when Array
+        content.map { format_content(_1) }
+      when LLM::Response::File
         file = content
-        {
-          inline_data: {mime_type: file.mime_type, data: [File.binread(file.path)].pack("m0")}
-        }
+        {file_data: {mime_type: file.mime_type, file_uri: file.uri}}
+      when LLM::File
+        file = content
+        {inline_data: {mime_type: file.mime_type, data: file.to_b64}}
       else
         {text: content}
       end

data/lib/llm/providers/gemini/images.rb ADDED Viewed

@@ -0,0 +1,99 @@
+# frozen_string_literal: true
+class LLM::Gemini
+  ##
+  # The {LLM::Gemini::Images LLM::Gemini::Images} class provides an images
+  # object for interacting with [Gemini's images API](https://ai.google.dev/gemini-api/docs/image-generation).
+  # Please note that unlike OpenAI, which can return either URLs or base64-encoded strings,
+  # Gemini's images API will always return an image as a base64 encoded string that
+  # can be decoded into binary.
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm = LLM.gemini(ENV["KEY"])
+  #   res = llm.images.create prompt: "A dog on a rocket to the moon"
+  #   File.binwrite "rocket.png", res.images[0].binary
+  class Images
+    include Format
+    ##
+    # Returns a new Images object
+    # @param provider [LLM::Provider]
+    # @return [LLM::Gemini::Responses]
+    def initialize(provider)
+      @provider = provider
+    end
+    ##
+    # Create an image
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.images.create prompt: "A dog on a rocket to the moon"
+    #   File.binwrite "rocket.png", res.images[0].binary
+    # @see https://ai.google.dev/gemini-api/docs/image-generation Gemini docs
+    # @param [String] prompt The prompt
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::HTTPClient#request)
+    # @note
+    #  The prompt should make it clear you want to generate an image, or you
+    #  might unexpectedly receive a purely textual response. This is due to how
+    #  Gemini implements image generation under the hood.
+    # @return [LLM::Response::Image]
+    def create(prompt:, model: "gemini-2.0-flash-exp-image-generation", **params)
+      req = Net::HTTP::Post.new("/v1beta/models/#{model}:generateContent?key=#{secret}", headers)
+      req.body = JSON.dump({
+        contents: [{parts: {text: prompt}}],
+        generationConfig: {responseModalities: ["TEXT", "IMAGE"]}
+      }.merge!(params))
+      res = request(http, req)
+      LLM::Response::Image.new(res).extend(response_parser)
+    end
+    ##
+    # Edit an image
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.images.edit image: LLM::File("cat.png"), prompt: "Add a hat to the cat"
+    #   File.binwrite "hatoncat.png", res.images[0].binary
+    # @see https://ai.google.dev/gemini-api/docs/image-generation Gemini docs
+    # @param [LLM::File] image The image to edit
+    # @param [String] prompt The prompt
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::HTTPClient#request)
+    # @note (see LLM::Gemini::Images#create)
+    # @return [LLM::Response::Image]
+    def edit(image:, prompt:, model: "gemini-2.0-flash-exp-image-generation", **params)
+      req = Net::HTTP::Post.new("/v1beta/models/#{model}:generateContent?key=#{secret}", headers)
+      req.body = JSON.dump({
+        contents: [
+          {parts: [{text: prompt}, format_content(image)]}
+        ],
+        generationConfig: {responseModalities: ["TEXT", "IMAGE"]}
+      }.merge!(params))
+      res = request(http, req)
+      LLM::Response::Image.new(res).extend(response_parser)
+    end
+    ##
+    # @raise [NotImplementedError]
+    #  This method is not implemented by Gemini
+    def create_variation
+      raise NotImplementedError
+    end
+    private
+    def secret
+      @provider.instance_variable_get(:@secret)
+    end
+    def http
+      @provider.instance_variable_get(:@http)
+    end
+    [:response_parser, :headers, :request].each do |m|
+      define_method(m) { |*args, &b| @provider.send(m, *args, &b) }
+    end
+  end
+end

data/lib/llm/providers/gemini/response_parser.rb CHANGED Viewed

@@ -1,7 +1,13 @@
 # frozen_string_literal: true
 class LLM::Gemini
+  ##
+  # @private
   module ResponseParser
+    ##
+    # @param [Hash] body
+    #  The response body from the LLM provider
+    # @return [Hash]
     def parse_embedding(body)
       {
         model: "text-embedding-004",
@@ -20,12 +26,32 @@ class LLM::Gemini
           LLM::Message.new(
             _1.dig("content", "role"),
             _1.dig("content", "parts", 0, "text"),
-            {completion: self}
+            {response: self}
           )
         end,
         prompt_tokens: body.dig("usageMetadata", "promptTokenCount"),
         completion_tokens: body.dig("usageMetadata", "candidatesTokenCount")
       }
     end
+    ##
+    # @param [Hash] body
+    #  The response body from the LLM provider
+    # @return [Hash]
+    def parse_image(body)
+      {
+        urls: [],
+        images: body["candidates"].flat_map do |candidate|
+          candidate["content"]["parts"].filter_map do
+            next unless _1.dig("inlineData", "data")
+            OpenStruct.from_hash(
+              mime_type: _1["inlineData"]["mimeType"],
+              encoded: _1["inlineData"]["data"],
+              binary: _1["inlineData"]["data"].unpack1("m0")
+            )
+          end
+        end
+      }
+    end
   end
 end

data/lib/llm/providers/gemini.rb CHANGED Viewed

@@ -3,11 +3,37 @@
 module LLM
   ##
   # The Gemini class implements a provider for
-  # [Gemini](https://ai.google.dev/)
+  # [Gemini](https://ai.google.dev/).
+  #
+  # The Gemini provider can accept multiple inputs (text, images,
+  # audio, and video). The inputs can be provided inline via the
+  # prompt for files under 20MB or via the Gemini Files API for
+  # files that are over 20MB
+  #
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm = LLM.gemini(ENV["KEY"])
+  #   bot = LLM::Chat.new(llm).lazy
+  #   bot.chat LLM::File("/images/capybara.png")
+  #   bot.chat "Describe the image"
+  #   bot.messages.select(&:assistant?).each { print "[#{_1.role}]", _1.content, "\n" }
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm = LLM.gemini(ENV["KEY"])
+  #   bot = LLM::Chat.new(llm).lazy
+  #   bot.chat ["Describe the image", LLM::File("/images/capybara.png")]
+  #   bot.messages.select(&:assistant?).each { print "[#{_1.role}]", _1.content, "\n" }
   class Gemini < Provider
     require_relative "gemini/error_handler"
     require_relative "gemini/response_parser"
     require_relative "gemini/format"
+    require_relative "gemini/images"
+    require_relative "gemini/files"
+    require_relative "gemini/audio"
     include Format
     HOST = "generativelanguage.googleapis.com"
@@ -19,10 +45,14 @@ module LLM
     end
     ##
+    # Provides an embedding
     # @param input (see LLM::Provider#embed)
+    # @param model (see LLM::Provider#embed)
+    # @param params (see LLM::Provider#embed)
+    # @raise (see LLM::HTTPClient#request)
     # @return (see LLM::Provider#embed)
-    def embed(input, **params)
-      path = ["/v1beta/models/text-embedding-004", "embedContent?key=#{@secret}"].join(":")
+    def embed(input, model: "text-embedding-004", **params)
+      path = ["/v1beta/models/#{model}", "embedContent?key=#{@secret}"].join(":")
       req = Net::HTTP::Post.new(path, headers)
       req.body = JSON.dump({content: {parts: [{text: input}]}})
       res = request(@http, req)
@@ -30,13 +60,17 @@ module LLM
     end
     ##
+    # Provides an interface to the chat completions API
     # @see https://ai.google.dev/api/generate-content#v1beta.models.generateContent Gemini docs
     # @param prompt (see LLM::Provider#complete)
     # @param role (see LLM::Provider#complete)
+    # @param model (see LLM::Provider#complete)
+    # @param params (see LLM::Provider#complete)
+    # @example (see LLM::Provider#complete)
+    # @raise (see LLM::HTTPClient#request)
     # @return (see LLM::Provider#complete)
-    def complete(prompt, role = :user, **params)
-      params   = {model: "gemini-1.5-flash"}.merge!(params)
-      path     = ["/v1beta/models/#{params.delete(:model)}", "generateContent?key=#{@secret}"].join(":")
+    def complete(prompt, role = :user, model: "gemini-1.5-flash", **params)
+      path     = ["/v1beta/models/#{model}", "generateContent?key=#{@secret}"].join(":")
       req      = Net::HTTP::Post.new(path, headers)
       messages = [*(params.delete(:messages) || []), LLM::Message.new(role, prompt)]
       req.body = JSON.dump({contents: format(messages)})
@@ -44,6 +78,28 @@ module LLM
       Response::Completion.new(res).extend(response_parser)
     end
+    ##
+    # Provides an interface to Gemini's audio API
+    # @see https://ai.google.dev/gemini-api/docs/audio Gemini docs
+    def audio
+      LLM::Gemini::Audio.new(self)
+    end
+    ##
+    # Provides an interface to Gemini's image generation API
+    # @see https://ai.google.dev/gemini-api/docs/image-generation Gemini docs
+    # @return [see LLM::Gemini::Images]
+    def images
+      LLM::Gemini::Images.new(self)
+    end
+    ##
+    # Provides an interface to Gemini's file management API
+    # @see https://ai.google.dev/gemini-api/docs/files Gemini docs
+    def files
+      LLM::Gemini::Files.new(self)
+    end
     ##
     # @return (see LLM::Provider#assistant_role)
     def assistant_role

data/lib/llm/providers/ollama/error_handler.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 # frozen_string_literal: true
 class LLM::Ollama
+  ##
+  # @private
   class ErrorHandler
     ##
     # @return [Net::HTTPResponse]

data/lib/llm/providers/ollama/format.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 # frozen_string_literal: true
 class LLM::Ollama
+  ##
+  # @private
   module Format
     ##
     # @param [Array<LLM::Message>] messages
@@ -9,9 +11,11 @@ class LLM::Ollama
     def format(messages)
       messages.map do
         if Hash === _1
-          {role: _1[:role], content: format_content(_1[:content])}
+          {role: _1[:role]}
+            .merge!(_1)
+            .merge!(format_content(_1[:content]))
         else
-          {role: _1.role, content: format_content(_1.content)}
+          {role: _1.role}.merge! format_content(_1.content)
         end
       end
     end
@@ -24,10 +28,14 @@ class LLM::Ollama
     # @return [String, Hash]
     #  The formatted content
     def format_content(content)
-      if URI === content
-        [{type: :image_url, image_url: {url: content.to_s}}]
+      if LLM::File === content
+        if content.image?
+          {content: "This message has an image associated with it", images: [content.to_b64]}
+        else
+          raise TypeError, "'#{content.path}' was not recognized as an image file."
+        end
       else
-        content
+        {content:}
       end
     end
   end

data/lib/llm/providers/ollama/response_parser.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 # frozen_string_literal: true
 class LLM::Ollama
+  ##
+  # @private
   module ResponseParser
     ##
     # @param [Hash] body
@@ -22,7 +24,7 @@ class LLM::Ollama
     def parse_completion(body)
       {
         model: body["model"],
-        choices: [LLM::Message.new(*body["message"].values_at("role", "content"), {completion: self})],
+        choices: [LLM::Message.new(*body["message"].values_at("role", "content"), {response: self})],
         prompt_tokens: body.dig("prompt_eval_count"),
         completion_tokens: body.dig("eval_count")
       }

data/lib/llm/providers/ollama.rb CHANGED Viewed

@@ -2,8 +2,22 @@
 module LLM
   ##
-  # The Ollama class implements a provider for
-  # [Ollama](https://ollama.ai/)
+  # The Ollama class implements a provider for [Ollama](https://ollama.ai/).
+  #
+  # This provider supports a wide range of models, it is relatively
+  # straight forward to run on your own hardware, and includes multi-modal
+  # models that can process images and text. See the example for a demonstration
+  # of a multi-modal model by the name `llava`
+  #
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm = LLM.ollama(nil)
+  #   bot = LLM::Chat.new(llm, model: "llava").lazy
+  #   bot.chat LLM::File("/images/capybara.png")
+  #   bot.chat "Describe the image"
+  #   bot.messages.select(&:assistant?).each { print "[#{_1.role}]", _1.content, "\n" }
   class Ollama < Provider
     require_relative "ollama/error_handler"
     require_relative "ollama/response_parser"
@@ -19,10 +33,14 @@ module LLM
     end
     ##
+    # Provides an embedding
     # @param input (see LLM::Provider#embed)
+    # @param model (see LLM::Provider#embed)
+    # @param params (see LLM::Provider#embed)
+    # @raise (see LLM::HTTPClient#request)
     # @return (see LLM::Provider#embed)
-    def embed(input, **params)
-      params   = {model: "llama3.2"}.merge!(params)
+    def embed(input, model: "llama3.2", **params)
+      params   = {model:}.merge!(params)
       req      = Net::HTTP::Post.new("/v1/embeddings", headers)
       req.body = JSON.dump({input:}.merge!(params))
       res      = request(@http, req)
@@ -30,15 +48,20 @@ module LLM
     end
     ##
+    # Provides an interface to the chat completions API
     # @see https://github.com/ollama/ollama/blob/main/docs/api.md#generate-a-chat-completion Ollama docs
     # @param prompt (see LLM::Provider#complete)
     # @param role (see LLM::Provider#complete)
+    # @param model (see LLM::Provider#complete)
+    # @param params (see LLM::Provider#complete)
+    # @example (see LLM::Provider#complete)
+    # @raise (see LLM::HTTPClient#request)
     # @return (see LLM::Provider#complete)
-    def complete(prompt, role = :user, **params)
-      params   = {model: "llama3.2", stream: false}.merge!(params)
+    def complete(prompt, role = :user, model: "llama3.2", **params)
+      params   = {model:, stream: false}.merge!(params)
       req      = Net::HTTP::Post.new("/api/chat", headers)
       messages = [*(params.delete(:messages) || []), LLM::Message.new(role, prompt)]
-      req.body = JSON.dump({messages: messages.map(&:to_h)}.merge!(params))
+      req.body = JSON.dump({messages: format(messages)}.merge!(params))
       res      = request(@http, req)
       Response::Completion.new(res).extend(response_parser)
     end

data/lib/llm/providers/openai/audio.rb ADDED Viewed

@@ -0,0 +1,97 @@
+# frozen_string_literal: true
+class LLM::OpenAI
+  ##
+  # The {LLM::OpenAI::Audio LLM::OpenAI::Audio} class provides an audio
+  # object for interacting with [OpenAI's audio API](https://platform.openai.com/docs/api-reference/audio/createSpeech).
+  # @example
+  #   llm = LLM.openai(ENV["KEY"])
+  #   res = llm.audio.create_speech(input: "A dog on a rocket to the moon")
+  #   File.binwrite("rocket.mp3", res.audio.string)
+  class Audio
+    require "stringio"
+    ##
+    # Returns a new Audio object
+    # @param provider [LLM::Provider]
+    # @return [LLM::OpenAI::Responses]
+    def initialize(provider)
+      @provider = provider
+    end
+    ##
+    # Create an audio track
+    # @example
+    #   llm = LLM.openai(ENV["KEY"])
+    #   res = llm.images.create_speech(input: "A dog on a rocket to the moon")
+    #   File.binwrite("rocket.mp3", res.audio.string)
+    # @see https://platform.openai.com/docs/api-reference/audio/createSpeech OpenAI docs
+    # @param [String] input The text input
+    # @param [String] voice The voice to use
+    # @param [String] model The model to use
+    # @param [String] response_format The response format
+    # @param [Hash] params Other parameters (see OpenAI docs)
+    # @raise (see LLM::HTTPClient#request)
+    # @return [LLM::Response::Audio]
+    def create_speech(input:, voice: "alloy", model: "gpt-4o-mini-tts", response_format: "mp3", **params)
+      req = Net::HTTP::Post.new("/v1/audio/speech", headers)
+      req.body = JSON.dump({input:, voice:, model:, response_format:}.merge!(params))
+      io = StringIO.new("".b)
+      res = request(http, req) { _1.read_body { |chunk| io << chunk } }
+      LLM::Response::Audio.new(res).tap { _1.audio = io }
+    end
+    ##
+    # Create an audio transcription
+    # @example
+    #   llm = LLM.openai(ENV["KEY"])
+    #   res = llm.audio.create_transcription(file: LLM::File("/rocket.mp3"))
+    #   res.text # => "A dog on a rocket to the moon"
+    # @see https://platform.openai.com/docs/api-reference/audio/createTranscription OpenAI docs
+    # @param [LLM::File] file The input audio
+    # @param [String] model The model to use
+    # @param [Hash] params Other parameters (see OpenAI docs)
+    # @raise (see LLM::HTTPClient#request)
+    # @return [LLM::Response::AudioTranscription]
+    def create_transcription(file:, model: "whisper-1", **params)
+      multi = LLM::Multipart.new(params.merge!(file:, model:))
+      req = Net::HTTP::Post.new("/v1/audio/transcriptions", headers)
+      req["content-type"] = multi.content_type
+      req.body = multi.body
+      res = request(http, req)
+      LLM::Response::AudioTranscription.new(res).tap { _1.text = _1.body["text"] }
+    end
+    ##
+    # Create an audio translation (in English)
+    # @example
+    #   # Arabic => English
+    #   llm = LLM.openai(ENV["KEY"])
+    #   res = llm.audio.create_translation(file: LLM::File("/bismillah.mp3"))
+    #   res.text # => "In the name of Allah, the Beneficent, the Merciful."
+    # @see https://platform.openai.com/docs/api-reference/audio/createTranslation OpenAI docs
+    # @param [LLM::File] file The input audio
+    # @param [String] model The model to use
+    # @param [Hash] params Other parameters (see OpenAI docs)
+    # @raise (see LLM::HTTPClient#request)
+    # @return [LLM::Response::AudioTranslation]
+    def create_translation(file:, model: "whisper-1", **params)
+      multi = LLM::Multipart.new(params.merge!(file:, model:))
+      req = Net::HTTP::Post.new("/v1/audio/translations", headers)
+      req["content-type"] = multi.content_type
+      req.body = multi.body
+      res = request(http, req)
+      LLM::Response::AudioTranslation.new(res).tap { _1.text = _1.body["text"] }
+    end
+    private
+    def http
+      @provider.instance_variable_get(:@http)
+    end
+    [:headers, :request].each do |m|
+      define_method(m) { |*args, &b| @provider.send(m, *args, &b) }
+    end
+  end
+end