RubyGems - embedding_util - Versions diffs - 0.1.2 → 0.1.3 - Mend

embedding_util 0.1.2 → 0.1.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +6 -0
data/README.md +2 -2
data/lib/embedding_util/profiles.rb +1 -1
data/lib/embedding_util/providers/endpoint.rb +2 -2
data/lib/embedding_util/server_manager.rb +4 -4
data/lib/embedding_util/version.rb +1 -1
metadata +1 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: fb8276720e51a283fb4b8c70507ae54d25ea968caffe8142f636a6e6ea948b71
-  data.tar.gz: eccb6e6d11006238a1af1bfc25fb3b5146325bf78a1deb0f447a73541dec128d
+  metadata.gz: d7fe54bc241ead7c4f0aab2f252dfedff61627a1e6cbc3814e02096e455849bb
+  data.tar.gz: 540daea5a8b3ac13123b879f4644622bda81697981a4270867510be752bcb3c8
 SHA512:
-  metadata.gz: e625a2389828218a8f39cc4dc69d6ea965f59e032d190407668029df227f3c7ffee32ce30b64141d8a38654573ac591315c08696f051db3f68772efaf1b7bf34
-  data.tar.gz: 5da07a5487e7167128b67d8b6e39009d6a2fd4c0949daf1e61ae2cb9e98fa668beecd618713b1d0545daa47a86ac6f4e77f66d3429093c658852b594b4aa3cc5
+  metadata.gz: 8fd953d5fe00539c084aed32136ab17c3645a401ef768778baa2534b3125f8fcd57771839b11e1d1890896adbc60850bfb82e74c3b07708df04f9efff82eb5b5
+  data.tar.gz: 54d4812b7425a12ee64841e43604375267ef25ca1f6d0f9a661fd1e1e4d710fc8208904b9b836a233c10820be624ec248df063ab98cfb81709f8b6c8efd88693

data/CHANGELOG.md CHANGED Viewed

@@ -1,3 +1,9 @@
+## [0.1.3] - 2026-06-10
+- Set self-hosted reranker `--batch-size` and `--ubatch-size` together
+- Retry managed reranker batch-size failures with both values raised to `4096`
+- Update endpoint guidance to recommend increasing both llama.cpp batch-size settings for app-managed rerankers
 ## [0.1.2] - 2026-06-10
 - Add self-hosted reranker recovery for llama.cpp physical batch-size failures

data/README.md CHANGED Viewed

@@ -118,9 +118,9 @@ Reranker model:
 - repo: `ggml-org/Qwen3-Reranker-0.6B-Q8_0-GGUF`
 - file: `qwen3-reranker-0.6b-q8_0.gguf`
-- server flags: `--reranking --ubatch-size 1024`
+- server flags: `--reranking --batch-size 1024 --ubatch-size 1024`
-For self-hosted rerankers, `embedding_util` starts with `--ubatch-size 1024`. If a larger rerank request exceeds llama.cpp's physical batch size, the managed reranker is restarted once with `config.reranker_max_ubatch_size`, which defaults to `4096`, and the request is retried.
+For self-hosted rerankers, `embedding_util` starts with `--batch-size 1024 --ubatch-size 1024`. If a larger rerank request exceeds llama.cpp's physical batch size, the managed reranker is restarted once with both values set to `config.reranker_max_ubatch_size`, which defaults to `4096`, and the request is retried.
 Do not combine embedding and reranking flags for this profile. Run separate local servers.

data/lib/embedding_util/profiles.rb CHANGED Viewed

@@ -19,7 +19,7 @@ module EmbeddingUtil
         repo: "ggml-org/Qwen3-Reranker-0.6B-Q8_0-GGUF",
         file: "qwen3-reranker-0.6b-q8_0.gguf",
         model: "qwen3-reranker-0.6b",
-        server_flags: ["--reranking", "--ubatch-size", "1024"]
+        server_flags: ["--reranking", "--batch-size", "1024", "--ubatch-size", "1024"]
       }
     )

data/lib/embedding_util/providers/endpoint.rb CHANGED Viewed

@@ -153,8 +153,8 @@ module EmbeddingUtil
         message = "#{uri} returned #{response.code}: #{response.body}"
         return message unless reranker_batch_size_error?(path, response.body)
-        "#{message}. Restart the reranker server with a larger llama.cpp --ubatch-size; " \
-          "embedding_util-managed reranker servers use --ubatch-size 1024 by default."
+        "#{message}. Restart the reranker server with larger llama.cpp --batch-size and --ubatch-size values; " \
+          "embedding_util-managed reranker servers use 1024 by default and can retry with 4096."
       end
       def reranker_batch_size_error?(path, body)

data/lib/embedding_util/server_manager.rb CHANGED Viewed

@@ -127,10 +127,10 @@ module EmbeddingUtil
       flags = server_model.settings.fetch(:server_flags)
       return flags unless server_model.capability == :reranker
-      with_ubatch_size(flags, config.reranker_ubatch_size)
+      with_reranker_batch_size(flags, config.reranker_ubatch_size)
     end
-    def with_ubatch_size(flags, size)
+    def with_reranker_batch_size(flags, size)
       filtered = []
       skip_next = false
       flags.each do |flag|
@@ -139,14 +139,14 @@ module EmbeddingUtil
           next
         end
-        if ["--ubatch-size", "-ub"].include?(flag)
+        if ["--batch-size", "-b", "--ubatch-size", "-ub"].include?(flag)
           skip_next = true
           next
         end
         filtered << flag
       end
-      filtered + ["--ubatch-size", size.to_s]
+      filtered + ["--batch-size", size.to_s, "--ubatch-size", size.to_s]
     end
     def required_port(host, port)

data/lib/embedding_util/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module EmbeddingUtil
-  VERSION = "0.1.2"
+  VERSION = "0.1.3"
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: embedding_util
 version: !ruby/object:Gem::Version
-  version: 0.1.2
+  version: 0.1.3
 platform: ruby
 authors:
 - hmdne