RubyGems - llm.rb - Versions diffs - 0.2.1 → 0.3.1 - Mend

llm.rb 0.2.1 → 0.3.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (67) hide show

checksums.yaml +4 -4
data/README.md +318 -110
data/lib/llm/buffer.rb +83 -0
data/lib/llm/chat.rb +131 -0
data/lib/llm/error.rb +3 -3
data/lib/llm/file.rb +36 -40
data/lib/llm/message.rb +21 -8
data/lib/llm/mime.rb +54 -0
data/lib/llm/multipart.rb +100 -0
data/lib/llm/provider.rb +123 -21
data/lib/llm/providers/anthropic/error_handler.rb +3 -1
data/lib/llm/providers/anthropic/format.rb +2 -0
data/lib/llm/providers/anthropic/response_parser.rb +3 -1
data/lib/llm/providers/anthropic.rb +14 -5
data/lib/llm/providers/gemini/audio.rb +77 -0
data/lib/llm/providers/gemini/error_handler.rb +4 -2
data/lib/llm/providers/gemini/files.rb +162 -0
data/lib/llm/providers/gemini/format.rb +12 -6
data/lib/llm/providers/gemini/images.rb +99 -0
data/lib/llm/providers/gemini/response_parser.rb +27 -1
data/lib/llm/providers/gemini.rb +62 -6
data/lib/llm/providers/ollama/error_handler.rb +3 -1
data/lib/llm/providers/ollama/format.rb +13 -5
data/lib/llm/providers/ollama/response_parser.rb +3 -1
data/lib/llm/providers/ollama.rb +30 -7
data/lib/llm/providers/openai/audio.rb +97 -0
data/lib/llm/providers/openai/error_handler.rb +3 -1
data/lib/llm/providers/openai/files.rb +148 -0
data/lib/llm/providers/openai/format.rb +22 -8
data/lib/llm/providers/openai/images.rb +109 -0
data/lib/llm/providers/openai/response_parser.rb +58 -5
data/lib/llm/providers/openai/responses.rb +85 -0
data/lib/llm/providers/openai.rb +52 -6
data/lib/llm/providers/voyageai/error_handler.rb +1 -1
data/lib/llm/providers/voyageai.rb +2 -2
data/lib/llm/response/audio.rb +13 -0
data/lib/llm/response/audio_transcription.rb +14 -0
data/lib/llm/response/audio_translation.rb +14 -0
data/lib/llm/response/download_file.rb +15 -0
data/lib/llm/response/file.rb +42 -0
data/lib/llm/response/filelist.rb +18 -0
data/lib/llm/response/image.rb +29 -0
data/lib/llm/response/output.rb +56 -0
data/lib/llm/response.rb +18 -6
data/lib/llm/utils.rb +19 -0
data/lib/llm/version.rb +1 -1
data/lib/llm.rb +5 -2
data/llm.gemspec +1 -6
data/spec/anthropic/completion_spec.rb +1 -1
data/spec/gemini/completion_spec.rb +1 -1
data/spec/gemini/conversation_spec.rb +31 -0
data/spec/gemini/files_spec.rb +124 -0
data/spec/gemini/images_spec.rb +47 -0
data/spec/llm/conversation_spec.rb +107 -62
data/spec/ollama/completion_spec.rb +1 -1
data/spec/ollama/conversation_spec.rb +31 -0
data/spec/openai/audio_spec.rb +55 -0
data/spec/openai/completion_spec.rb +5 -4
data/spec/openai/files_spec.rb +204 -0
data/spec/openai/images_spec.rb +95 -0
data/spec/openai/responses_spec.rb +51 -0
data/spec/setup.rb +8 -0
metadata +31 -50
data/LICENSE.txt +0 -21
data/lib/llm/conversation.rb +0 -90
data/lib/llm/http_client.rb +0 -29
data/lib/llm/message_queue.rb +0 -54

data/lib/llm/providers/anthropic/response_parser.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 # frozen_string_literal: true
 class LLM::Anthropic
+  ##
+  # @private
   module ResponseParser
     def parse_embedding(body)
       {
@@ -19,7 +21,7 @@ class LLM::Anthropic
         model: body["model"],
         choices: body["content"].map do
           # TODO: don't hardcode role
-          LLM::Message.new("assistant", _1["text"], {completion: self})
+          LLM::Message.new("assistant", _1["text"], {response: self})
         end,
         prompt_tokens: body.dig("usage", "input_tokens"),
         completion_tokens: body.dig("usage", "output_tokens")

data/lib/llm/providers/anthropic.rb CHANGED Viewed

@@ -24,21 +24,30 @@ module LLM
     # @param input (see LLM::Provider#embed)
     # @param [String] token
     #  Valid token for the VoyageAI API
+    # @param [String] model
+    #  The embedding model to use
     # @param [Hash] params
-    #  Additional parameters to pass to the API
+    #  Other embedding parameters
+    # @raise (see LLM::Provider#request)
     # @return (see LLM::Provider#embed)
-    def embed(input, token:, **params)
+    def embed(input, token:, model: "voyage-2", **params)
       llm = LLM.voyageai(token)
-      llm.embed(input, **params)
+      llm.embed(input, **params.merge(model:))
     end
     ##
+    # Provides an interface to the chat completions API
     # @see https://docs.anthropic.com/en/api/messages Anthropic docs
     # @param prompt (see LLM::Provider#complete)
     # @param role (see LLM::Provider#complete)
+    # @param model (see LLM::Provider#complete)
+    # @param max_tokens The maximum number of tokens to generate
+    # @param params (see LLM::Provider#complete)
+    # @example (see LLM::Provider#complete)
+    # @raise (see LLM::Provider#request)
     # @return (see LLM::Provider#complete)
-    def complete(prompt, role = :user, **params)
-      params   = {max_tokens: 1024, model: "claude-3-5-sonnet-20240620"}.merge!(params)
+    def complete(prompt, role = :user, model: "claude-3-5-sonnet-20240620", max_tokens: 1024, **params)
+      params   = {max_tokens:, model:}.merge!(params)
       req      = Net::HTTP::Post.new("/v1/messages", headers)
       messages = [*(params.delete(:messages) || []), Message.new(role, prompt)]
       req.body = JSON.dump({messages: format(messages)}.merge!(params))

data/lib/llm/providers/gemini/audio.rb ADDED Viewed

@@ -0,0 +1,77 @@
+# frozen_string_literal: true
+class LLM::Gemini
+  ##
+  # The {LLM::Gemini::Audio LLM::Gemini::Audio} class provides an audio
+  # object for interacting with [Gemini's audio API](https://ai.google.dev/gemini-api/docs/audio).
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm = LLM.gemini(ENV["KEY"])
+  #   res = llm.audio.create_transcription(input: LLM::File("/rocket.mp3"))
+  #   res.text # => "A dog on a rocket to the moon"
+  class Audio
+    ##
+    # Returns a new Audio object
+    # @param provider [LLM::Provider]
+    # @return [LLM::Gemini::Responses]
+    def initialize(provider)
+      @provider = provider
+    end
+    ##
+    # @raise [NotImplementedError]
+    #  This method is not implemented by Gemini
+    def create_speech
+      raise NotImplementedError
+    end
+    ##
+    # Create an audio transcription
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.audio.create_transcription(file: LLM::File("/rocket.mp3"))
+    #   res.text # => "A dog on a rocket to the moon"
+    # @see https://ai.google.dev/gemini-api/docs/audio Gemini docs
+    # @param [LLM::File, LLM::Response::File] file The input audio
+    # @param [String] model The model to use
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::Provider#request)
+    # @return [LLM::Response::AudioTranscription]
+    def create_transcription(file:, model: "gemini-1.5-flash", **params)
+      res = @provider.complete [
+        "Your task is to transcribe the contents of an audio file",
+        "Your response should include the transcription, and nothing else",
+        file
+      ], :user, model:, **params
+      LLM::Response::AudioTranscription
+        .new(res)
+        .tap { _1.text = res.choices[0].content }
+    end
+    ##
+    # Create an audio translation (in English)
+    # @example
+    #   # Arabic => English
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.audio.create_translation(file: LLM::File("/bismillah.mp3"))
+    #   res.text # => "In the name of Allah, the Beneficent, the Merciful."
+    # @see https://ai.google.dev/gemini-api/docs/audio Gemini docs
+    # @param [LLM::File, LLM::Response::File] file The input audio
+    # @param [String] model The model to use
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::Provider#request)
+    # @return [LLM::Response::AudioTranslation]
+    def create_translation(file:, model: "gemini-1.5-flash", **params)
+      res = @provider.complete [
+        "Your task is to translate the contents of an audio file into English",
+        "Your response should include the translation, and nothing else",
+        file
+      ], :user, model:, **params
+      LLM::Response::AudioTranslation
+        .new(res)
+        .tap { _1.text = res.choices[0].content }
+    end
+  end
+end

data/lib/llm/providers/gemini/error_handler.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 # frozen_string_literal: true
 class LLM::Gemini
+  ##
+  # @private
   class ErrorHandler
     ##
     # @return [Net::HTTPResponse]
@@ -25,12 +27,12 @@ class LLM::Gemini
         if reason == "API_KEY_INVALID"
           raise LLM::Error::Unauthorized.new { _1.response = res }, "Authentication error"
         else
-          raise LLM::Error::BadResponse.new { _1.response = res }, "Unexpected response"
+          raise LLM::Error::ResponseError.new { _1.response = res }, "Unexpected response"
         end
       when Net::HTTPTooManyRequests
         raise LLM::Error::RateLimit.new { _1.response = res }, "Too many requests"
       else
-        raise LLM::Error::BadResponse.new { _1.response = res }, "Unexpected response"
+        raise LLM::Error::ResponseError.new { _1.response = res }, "Unexpected response"
       end
     end

data/lib/llm/providers/gemini/files.rb ADDED Viewed

@@ -0,0 +1,162 @@
+# frozen_string_literal: true
+class LLM::Gemini
+  ##
+  # The {LLM::Gemini::Files LLM::Gemini::Files} class provides a files
+  # object for interacting with [Gemini's Files API](https://ai.google.dev/gemini-api/docs/files).
+  # The files API allows a client to reference media files in prompts
+  # where they can be referenced by their URL.
+  #
+  # The files API is intended to preserve bandwidth and latency,
+  # especially for large files but it can be helpful for smaller files
+  # as well because it does not require the client to include a file
+  # in the prompt over and over again (which could be the case in a
+  # multi-turn conversation).
+  #
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm = LLM.gemini(ENV["KEY"])
+  #   bot = LLM::Chat.new(llm).lazy
+  #   file = llm.files.create file: LLM::File("/audio/haiku.mp3")
+  #   bot.chat(file)
+  #   bot.chat("Describe the audio file I sent to you")
+  #   bot.chat("The audio file is the first message I sent to you.")
+  #   bot.messages.select(&:assistant?).each { print "[#{_1.role}]", _1.content, "\n" }
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm = LLM.gemini(ENV["KEY"])
+  #   bot = LLM::Chat.new(llm).lazy
+  #   file = llm.files.create file: LLM::File("/audio/haiku.mp3")
+  #   bot.chat(["Describe the audio file I sent to you", file])
+  #   bot.messages.select(&:assistant?).each { print "[#{_1.role}]", _1.content, "\n" }
+  class Files
+    ##
+    # Returns a new Files object
+    # @param provider [LLM::Provider]
+    # @return [LLM::Gemini::Files]
+    def initialize(provider)
+      @provider = provider
+    end
+    ##
+    # List all files
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.files.all
+    #   res.each do |file|
+    #     print "name: ", file.name, "\n"
+    #   end
+    # @see https://ai.google.dev/gemini-api/docs/files Gemini docs
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::Provider#request)
+    # @return [LLM::Response::FileList]
+    def all(**params)
+      query = URI.encode_www_form(params.merge!(key: secret))
+      req = Net::HTTP::Get.new("/v1beta/files?#{query}", headers)
+      res = request(http, req)
+      LLM::Response::FileList.new(res).tap { |filelist|
+        files = filelist.body["files"]&.map do |file|
+          file = file.transform_keys { snakecase(_1) }
+          OpenStruct.from_hash(file)
+        end || []
+        filelist.files = files
+      }
+    end
+    ##
+    # Create a file
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.files.create file: LLM::File("/audio/haiku.mp3"),
+    # @see https://ai.google.dev/gemini-api/docs/files Gemini docs
+    # @param [File] file The file
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::Provider#request)
+    # @return [LLM::Response::File]
+    def create(file:, **params)
+      req = Net::HTTP::Post.new(request_upload_url(file:), {})
+      req["content-length"] = file.bytesize
+      req["X-Goog-Upload-Offset"] = 0
+      req["X-Goog-Upload-Command"] = "upload, finalize"
+      file.with_io do |io|
+        req.body_stream = io
+        res = request(http, req)
+        LLM::Response::File.new(res)
+      end
+    end
+    ##
+    # Get a file
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.files.get(file: "files/1234567890")
+    #   print "name: ", res.name, "\n"
+    # @see https://ai.google.dev/gemini-api/docs/files Gemini docs
+    # @param [#name, String] file The file to get
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::Provider#request)
+    # @return [LLM::Response::File]
+    def get(file:, **params)
+      file_id = file.respond_to?(:name) ? file.name : file.to_s
+      query = URI.encode_www_form(params.merge!(key: secret))
+      req = Net::HTTP::Get.new("/v1beta/#{file_id}?#{query}", headers)
+      res = request(http, req)
+      LLM::Response::File.new(res)
+    end
+    ##
+    # Delete a file
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.files.delete(file: "files/1234567890")
+    # @see https://ai.google.dev/gemini-api/docs/files Gemini docs
+    # @param [#name, String] file The file to delete
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::Provider#request)
+    # @return [LLM::Response::File]
+    def delete(file:, **params)
+      file_id = file.respond_to?(:name) ? file.name : file.to_s
+      query = URI.encode_www_form(params.merge!(key: secret))
+      req = Net::HTTP::Delete.new("/v1beta/#{file_id}?#{query}", headers)
+      request(http, req)
+    end
+    ##
+    # @raise [NotImplementedError]
+    #  This method is not implemented by Gemini
+    def download
+      raise NotImplementedError
+    end
+    private
+    include LLM::Utils
+    def request_upload_url(file:)
+      req = Net::HTTP::Post.new("/upload/v1beta/files?key=#{secret}", headers)
+      req["X-Goog-Upload-Protocol"] = "resumable"
+      req["X-Goog-Upload-Command"] = "start"
+      req["X-Goog-Upload-Header-Content-Length"] = file.bytesize
+      req["X-Goog-Upload-Header-Content-Type"] = file.mime_type
+      req.body = JSON.dump(file: {display_name: File.basename(file.path)})
+      res = request(http, req)
+      res["x-goog-upload-url"]
+    end
+    def http
+      @provider.instance_variable_get(:@http)
+    end
+    def secret
+      @provider.instance_variable_get(:@secret)
+    end
+    [:headers, :request].each do |m|
+      define_method(m) { |*args, &b| @provider.send(m, *args, &b) }
+    end
+  end
+end

data/lib/llm/providers/gemini/format.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 # frozen_string_literal: true
 class LLM::Gemini
+  ##
+  # @private
   module Format
     ##
     # @param [Array<LLM::Message>] messages
@@ -19,16 +21,20 @@ class LLM::Gemini
     private
     ##
-    # @param [String, LLM::File] content
+    # @param [String, Array, LLM::Response::File, LLM::File] content
     #  The content to format
-    # @return [String, Hash]
+    # @return [Hash]
     #  The formatted content
     def format_content(content)
-      if LLM::File === content
+      case content
+      when Array
+        content.map { format_content(_1) }
+      when LLM::Response::File
         file = content
-        {
-          inline_data: {mime_type: file.mime_type, data: [File.binread(file.path)].pack("m0")}
-        }
+        {file_data: {mime_type: file.mime_type, file_uri: file.uri}}
+      when LLM::File
+        file = content
+        {inline_data: {mime_type: file.mime_type, data: file.to_b64}}
       else
         {text: content}
       end

data/lib/llm/providers/gemini/images.rb ADDED Viewed

@@ -0,0 +1,99 @@
+# frozen_string_literal: true
+class LLM::Gemini
+  ##
+  # The {LLM::Gemini::Images LLM::Gemini::Images} class provides an images
+  # object for interacting with [Gemini's images API](https://ai.google.dev/gemini-api/docs/image-generation).
+  # Please note that unlike OpenAI, which can return either URLs or base64-encoded strings,
+  # Gemini's images API will always return an image as a base64 encoded string that
+  # can be decoded into binary.
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm = LLM.gemini(ENV["KEY"])
+  #   res = llm.images.create prompt: "A dog on a rocket to the moon"
+  #   File.binwrite "rocket.png", res.images[0].binary
+  class Images
+    include Format
+    ##
+    # Returns a new Images object
+    # @param provider [LLM::Provider]
+    # @return [LLM::Gemini::Responses]
+    def initialize(provider)
+      @provider = provider
+    end
+    ##
+    # Create an image
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.images.create prompt: "A dog on a rocket to the moon"
+    #   File.binwrite "rocket.png", res.images[0].binary
+    # @see https://ai.google.dev/gemini-api/docs/image-generation Gemini docs
+    # @param [String] prompt The prompt
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::Provider#request)
+    # @note
+    #  The prompt should make it clear you want to generate an image, or you
+    #  might unexpectedly receive a purely textual response. This is due to how
+    #  Gemini implements image generation under the hood.
+    # @return [LLM::Response::Image]
+    def create(prompt:, model: "gemini-2.0-flash-exp-image-generation", **params)
+      req  = Net::HTTP::Post.new("/v1beta/models/#{model}:generateContent?key=#{secret}", headers)
+      body = JSON.dump({
+        contents: [{parts: {text: prompt}}],
+        generationConfig: {responseModalities: ["TEXT", "IMAGE"]}
+      }.merge!(params))
+      req.body = body
+      res = request(http, req)
+      LLM::Response::Image.new(res).extend(response_parser)
+    end
+    ##
+    # Edit an image
+    # @example
+    #   llm = LLM.gemini(ENV["KEY"])
+    #   res = llm.images.edit image: LLM::File("cat.png"), prompt: "Add a hat to the cat"
+    #   File.binwrite "hatoncat.png", res.images[0].binary
+    # @see https://ai.google.dev/gemini-api/docs/image-generation Gemini docs
+    # @param [LLM::File] image The image to edit
+    # @param [String] prompt The prompt
+    # @param [Hash] params Other parameters (see Gemini docs)
+    # @raise (see LLM::Provider#request)
+    # @note (see LLM::Gemini::Images#create)
+    # @return [LLM::Response::Image]
+    def edit(image:, prompt:, model: "gemini-2.0-flash-exp-image-generation", **params)
+      req  = Net::HTTP::Post.new("/v1beta/models/#{model}:generateContent?key=#{secret}", headers)
+      body = JSON.dump({
+        contents: [{parts: [{text: prompt}, format_content(image)]}],
+        generationConfig: {responseModalities: ["TEXT", "IMAGE"]}
+      }.merge!(params)).b
+      req.body_stream = StringIO.new(body)
+      res = request(http, req)
+      LLM::Response::Image.new(res).extend(response_parser)
+    end
+    ##
+    # @raise [NotImplementedError]
+    #  This method is not implemented by Gemini
+    def create_variation
+      raise NotImplementedError
+    end
+    private
+    def secret
+      @provider.instance_variable_get(:@secret)
+    end
+    def http
+      @provider.instance_variable_get(:@http)
+    end
+    [:response_parser, :headers, :request].each do |m|
+      define_method(m) { |*args, &b| @provider.send(m, *args, &b) }
+    end
+  end
+end

data/lib/llm/providers/gemini/response_parser.rb CHANGED Viewed

@@ -1,7 +1,13 @@
 # frozen_string_literal: true
 class LLM::Gemini
+  ##
+  # @private
   module ResponseParser
+    ##
+    # @param [Hash] body
+    #  The response body from the LLM provider
+    # @return [Hash]
     def parse_embedding(body)
       {
         model: "text-embedding-004",
@@ -20,12 +26,32 @@ class LLM::Gemini
           LLM::Message.new(
             _1.dig("content", "role"),
             _1.dig("content", "parts", 0, "text"),
-            {completion: self}
+            {response: self}
           )
         end,
         prompt_tokens: body.dig("usageMetadata", "promptTokenCount"),
         completion_tokens: body.dig("usageMetadata", "candidatesTokenCount")
       }
     end
+    ##
+    # @param [Hash] body
+    #  The response body from the LLM provider
+    # @return [Hash]
+    def parse_image(body)
+      {
+        urls: [],
+        images: body["candidates"].flat_map do |candidate|
+          candidate["content"]["parts"].filter_map do
+            next unless _1.dig("inlineData", "data")
+            OpenStruct.from_hash(
+              mime_type: _1["inlineData"]["mimeType"],
+              encoded: _1["inlineData"]["data"],
+              binary: _1["inlineData"]["data"].unpack1("m0")
+            )
+          end
+        end
+      }
+    end
   end
 end

data/lib/llm/providers/gemini.rb CHANGED Viewed

@@ -3,11 +3,37 @@
 module LLM
   ##
   # The Gemini class implements a provider for
-  # [Gemini](https://ai.google.dev/)
+  # [Gemini](https://ai.google.dev/).
+  #
+  # The Gemini provider can accept multiple inputs (text, images,
+  # audio, and video). The inputs can be provided inline via the
+  # prompt for files under 20MB or via the Gemini Files API for
+  # files that are over 20MB
+  #
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm = LLM.gemini(ENV["KEY"])
+  #   bot = LLM::Chat.new(llm).lazy
+  #   bot.chat LLM::File("/images/capybara.png")
+  #   bot.chat "Describe the image"
+  #   bot.messages.select(&:assistant?).each { print "[#{_1.role}]", _1.content, "\n" }
+  # @example
+  #   #!/usr/bin/env ruby
+  #   require "llm"
+  #
+  #   llm = LLM.gemini(ENV["KEY"])
+  #   bot = LLM::Chat.new(llm).lazy
+  #   bot.chat ["Describe the image", LLM::File("/images/capybara.png")]
+  #   bot.messages.select(&:assistant?).each { print "[#{_1.role}]", _1.content, "\n" }
   class Gemini < Provider
     require_relative "gemini/error_handler"
     require_relative "gemini/response_parser"
     require_relative "gemini/format"
+    require_relative "gemini/images"
+    require_relative "gemini/files"
+    require_relative "gemini/audio"
     include Format
     HOST = "generativelanguage.googleapis.com"
@@ -19,10 +45,14 @@ module LLM
     end
     ##
+    # Provides an embedding
     # @param input (see LLM::Provider#embed)
+    # @param model (see LLM::Provider#embed)
+    # @param params (see LLM::Provider#embed)
+    # @raise (see LLM::Provider#request)
     # @return (see LLM::Provider#embed)
-    def embed(input, **params)
-      path = ["/v1beta/models/text-embedding-004", "embedContent?key=#{@secret}"].join(":")
+    def embed(input, model: "text-embedding-004", **params)
+      path = ["/v1beta/models/#{model}", "embedContent?key=#{@secret}"].join(":")
       req = Net::HTTP::Post.new(path, headers)
       req.body = JSON.dump({content: {parts: [{text: input}]}})
       res = request(@http, req)
@@ -30,13 +60,17 @@ module LLM
     end
     ##
+    # Provides an interface to the chat completions API
     # @see https://ai.google.dev/api/generate-content#v1beta.models.generateContent Gemini docs
     # @param prompt (see LLM::Provider#complete)
     # @param role (see LLM::Provider#complete)
+    # @param model (see LLM::Provider#complete)
+    # @param params (see LLM::Provider#complete)
+    # @example (see LLM::Provider#complete)
+    # @raise (see LLM::Provider#request)
     # @return (see LLM::Provider#complete)
-    def complete(prompt, role = :user, **params)
-      params   = {model: "gemini-1.5-flash"}.merge!(params)
-      path     = ["/v1beta/models/#{params.delete(:model)}", "generateContent?key=#{@secret}"].join(":")
+    def complete(prompt, role = :user, model: "gemini-1.5-flash", **params)
+      path     = ["/v1beta/models/#{model}", "generateContent?key=#{@secret}"].join(":")
       req      = Net::HTTP::Post.new(path, headers)
       messages = [*(params.delete(:messages) || []), LLM::Message.new(role, prompt)]
       req.body = JSON.dump({contents: format(messages)})
@@ -44,6 +78,28 @@ module LLM
       Response::Completion.new(res).extend(response_parser)
     end
+    ##
+    # Provides an interface to Gemini's audio API
+    # @see https://ai.google.dev/gemini-api/docs/audio Gemini docs
+    def audio
+      LLM::Gemini::Audio.new(self)
+    end
+    ##
+    # Provides an interface to Gemini's image generation API
+    # @see https://ai.google.dev/gemini-api/docs/image-generation Gemini docs
+    # @return [see LLM::Gemini::Images]
+    def images
+      LLM::Gemini::Images.new(self)
+    end
+    ##
+    # Provides an interface to Gemini's file management API
+    # @see https://ai.google.dev/gemini-api/docs/files Gemini docs
+    def files
+      LLM::Gemini::Files.new(self)
+    end
     ##
     # @return (see LLM::Provider#assistant_role)
     def assistant_role

data/lib/llm/providers/ollama/error_handler.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 # frozen_string_literal: true
 class LLM::Ollama
+  ##
+  # @private
   class ErrorHandler
     ##
     # @return [Net::HTTPResponse]
@@ -25,7 +27,7 @@ class LLM::Ollama
       when Net::HTTPTooManyRequests
         raise LLM::Error::RateLimit.new { _1.response = res }, "Too many requests"
       else
-        raise LLM::Error::BadResponse.new { _1.response = res }, "Unexpected response"
+        raise LLM::Error::ResponseError.new { _1.response = res }, "Unexpected response"
       end
     end
   end

data/lib/llm/providers/ollama/format.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 # frozen_string_literal: true
 class LLM::Ollama
+  ##
+  # @private
   module Format
     ##
     # @param [Array<LLM::Message>] messages
@@ -9,9 +11,11 @@ class LLM::Ollama
     def format(messages)
       messages.map do
         if Hash === _1
-          {role: _1[:role], content: format_content(_1[:content])}
+          {role: _1[:role]}
+            .merge!(_1)
+            .merge!(format_content(_1[:content]))
         else
-          {role: _1.role, content: format_content(_1.content)}
+          {role: _1.role}.merge! format_content(_1.content)
         end
       end
     end
@@ -24,10 +28,14 @@ class LLM::Ollama
     # @return [String, Hash]
     #  The formatted content
     def format_content(content)
-      if URI === content
-        [{type: :image_url, image_url: {url: content.to_s}}]
+      if LLM::File === content
+        if content.image?
+          {content: "This message has an image associated with it", images: [content.to_b64]}
+        else
+          raise TypeError, "'#{content.path}' was not recognized as an image file."
+        end
       else
-        content
+        {content:}
       end
     end
   end

data/lib/llm/providers/ollama/response_parser.rb CHANGED Viewed

@@ -1,6 +1,8 @@
 # frozen_string_literal: true
 class LLM::Ollama
+  ##
+  # @private
   module ResponseParser
     ##
     # @param [Hash] body
@@ -22,7 +24,7 @@ class LLM::Ollama
     def parse_completion(body)
       {
         model: body["model"],
-        choices: [LLM::Message.new(*body["message"].values_at("role", "content"), {completion: self})],
+        choices: [LLM::Message.new(*body["message"].values_at("role", "content"), {response: self})],
         prompt_tokens: body.dig("prompt_eval_count"),
         completion_tokens: body.dig("eval_count")
       }