RubyGems - discourse_ai-tokenizers - Versions diffs - 0.3.1 → 0.4 - Mend

discourse_ai-tokenizers 0.3.1 → 0.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +8 -0
data/lib/discourse_ai/tokenizer/open_ai_tokenizer.rb +27 -5
data/lib/discourse_ai/tokenizers/version.rb +1 -1
metadata +10 -10

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 36b5e98f002fe493df0c192a5ba86cf1a65d7c5d58207a3ee51a151c71d25002
-  data.tar.gz: c20fdaa5692731610370d9c8bf790a12ace12a5b3513d95f238e64369396dfcf
+  metadata.gz: b3868dc8e228ff41a7319ceb5c97b1443646bc715654ff6872f6a107680d1240
+  data.tar.gz: 1cd60cd362995d4b3a7be7495768e9ee0885a532eafaed9b482a7a1dab36e391
 SHA512:
-  metadata.gz: f83d3e648f680f40c099add8596111d25e74cadb21109bcc7eb1914b12c19b42b118435cd0c99e2781002ea5090325a59b69ded692a05fc8ea98c86a6f13bd5e
-  data.tar.gz: 0bc123e4127d01bb85650147b4c56134c2789b12ec3edffa0377512482e731e1718b0811f7df18b9b8978e0f4556a10de030de1d4548496e11bc180979d9cf4b
+  metadata.gz: 632ada3172909b8e230e20742da68d98ffd0f48ccfdb7d5b79d7055dd1579e8b9ec8d163c30221a63f6581a46ae8dcf376be97e3db9c6677a8a06b247eabfa1a
+  data.tar.gz: 436f944b815606c911f98b465284860ebdd628a1a8b70deab0b37a3050d72dc18947caddbd4e47b0ad50ddfe997454f44454d91ac481a27b99cb9fe413c1d7be

data/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,13 @@
 ## [Unreleased]
+## [0.4.0] - 2026-01-06
+- Add Ruby 4.0 compatibility
+## [0.3.2] - 2025-12-10
+- Fix truncation logic in OpenAiTokenizer could lead to string parsing fails
 ## [0.3.1] - 2025-07-07
 - Refactor OpenAiO200kTokenizer class to OpenAiTokenizer as primary class name

data/lib/discourse_ai/tokenizer/open_ai_tokenizer.rb CHANGED Viewed

@@ -19,9 +19,31 @@ module DiscourseAi
         def decode(token_ids)
           tokenizer.decode(token_ids)
-        rescue Tiktoken::UnicodeError => e
-          # Handle invalid token IDs gracefully by returning empty string
-          ""
+        rescue Tiktoken::UnicodeError
+          token_ids = token_ids.dup
+          # this easy case, we started with a valid sequnce but truncated it on an invalid boundary
+          # work backwards removing tokens until we can decode again
+          tries = 4
+          while tries > 0
+            begin
+              token_ids.pop
+              return tokenizer.decode(token_ids)
+            rescue Tiktoken::UnicodeError
+              tries -= 1
+            end
+          end
+          # at this point we may have a corrupted sequence so just decode what we can
+          token_ids
+            .map do |id|
+              begin
+                tokenizer.decode([id])
+              rescue Tiktoken::UnicodeError
+                ""
+              end
+            end
+            .join
         end
         def truncate(text, max_length, strict: false)
@@ -33,12 +55,12 @@ module DiscourseAi
           # Take tokens up to max_length, decode, then ensure we don't exceed limit
           truncated_tokens = tokenize(text).take(max_length)
-          truncated_text = tokenizer.decode(truncated_tokens)
+          truncated_text = decode(truncated_tokens)
           # If re-encoding exceeds the limit, we need to further truncate
           while tokenize(truncated_text).length > max_length
             truncated_tokens = truncated_tokens[0...-1]
-            truncated_text = tokenizer.decode(truncated_tokens)
+            truncated_text = decode(truncated_tokens)
             break if truncated_tokens.empty?
           end

data/lib/discourse_ai/tokenizers/version.rb CHANGED Viewed

@@ -2,6 +2,6 @@
 module DiscourseAi
   module Tokenizers
-    VERSION = "0.3.1"
+    VERSION = "0.4"
   end
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: discourse_ai-tokenizers
 version: !ruby/object:Gem::Version
-  version: 0.3.1
+  version: '0.4'
 platform: ruby
 authors:
 - Rafael Silva
@@ -29,42 +29,42 @@ dependencies:
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 0.0.11.1
+        version: 0.0.15
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 0.0.11.1
+        version: 0.0.15
 - !ruby/object:Gem::Dependency
   name: tokenizers
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 0.5.4
+        version: 0.6.3
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 0.5.4
+        version: 0.6.3
 - !ruby/object:Gem::Dependency
   name: rubocop-discourse
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - '='
+    - - "~>"
       - !ruby/object:Gem::Version
-        version: 3.8.1
+        version: '3.8'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - '='
+    - - "~>"
       - !ruby/object:Gem::Version
-        version: 3.8.1
+        version: '3.8'
 - !ruby/object:Gem::Dependency
   name: syntax_tree
   requirement: !ruby/object:Gem::Requirement
@@ -145,7 +145,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.6.7
+rubygems_version: 3.6.9
 specification_version: 4
 summary: Unified tokenizer interface for AI/ML models supporting OpenAI, Anthropic,
   Gemini, Llama, and embedding models