RubyGems - discourse_ai-tokenizers - Versions diffs - 0.2.0 → 0.3.0 - Mend

discourse_ai-tokenizers 0.2.0 → 0.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +6 -0
data/lib/discourse_ai/tokenizer/open_ai_cl100k_tokenizer.rb +14 -0
data/lib/discourse_ai/tokenizer/open_ai_tokenizer.rb +3 -1
data/lib/discourse_ai/tokenizers/version.rb +1 -1
data/lib/discourse_ai/tokenizers.rb +1 -0
metadata +2 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: d23181327ee259c76aa29f86a2b40702b39524705d11afd14239dfe6e3e90009
-  data.tar.gz: 76c2d7bbe1c4ebe97dff5576aec832e8664831ade0b819cf9afd244600f1be38
+  metadata.gz: c2d3921cc11a89b45ff8e5f7a58c4ae4cb170791a45dc445d1f908a5cc83a88a
+  data.tar.gz: 7d5d4a725d97d608baea0c3946bde1156c5f7808ad5d6e5bbbb420670e195287
 SHA512:
-  metadata.gz: 02ad662edd31f57b8cba0b1ea221bb7c9f1684d65b9fcd1002739eebf4c1393152ee3f17ea675a8bd596eed4ba9a4fc61cea20b49bd7f3c5b86f64d0e2772bbb
-  data.tar.gz: 9869f1d01ce0388ac2bec619060e7ace28ad5155ff336667072d965a9405217b0ad21e36b258f384ef5456f3e3c3ee35b9c10c536a11e562c4ca5cb948c1ff81
+  metadata.gz: 407774d2cfd411c88e4b43fb31aa572ea8a59bc285887f24dc96cf4843d7b8c1dc5b0c35b5731223a4e269772146ff8a9b499829bcace07b5b954f540d534bdf
+  data.tar.gz: da30167cc708d12dbba2763bdb31802c6ba165018d5ca7a1e698898ac5df41ee4b11c91aa24153588a238f98d1ebd886316e9716cf9bfef8c2ea65fbd9fec2a5

data/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,11 @@
 ## [Unreleased]
+## [0.3.0] - 2025-07-04
+- Add OpenAiCl100kTokenizer class for cl100k_base encoding
+- Refactor OpenAiTokenizer to OpenAiO200kTokenizer with backward compatibility alias
+- Update version to 0.3.0
 ## [0.2.0] - 2025-07-02
 - Initial release

data/lib/discourse_ai/tokenizer/open_ai_cl100k_tokenizer.rb ADDED Viewed

@@ -0,0 +1,14 @@
+# frozen_string_literal: true
+module DiscourseAi
+  module Tokenizer
+    # Wrapper for OpenAI tokenizer library for compatibility with Discourse AI API
+    class OpenAiCl100kTokenizer < OpenAiTokenizer
+      class << self
+        def tokenizer
+          @tokenizer ||= Tiktoken.get_encoding("cl100k_base")
+        end
+      end
+    end
+  end
+end

data/lib/discourse_ai/tokenizer/open_ai_tokenizer.rb CHANGED Viewed

@@ -3,7 +3,7 @@
 module DiscourseAi
   module Tokenizer
     # Wrapper for OpenAI tokenizer library for compatibility with Discourse AI API
-    class OpenAiTokenizer < BasicTokenizer
+    class OpenAiO200kTokenizer < BasicTokenizer
       class << self
         def tokenizer
           @tokenizer ||= Tiktoken.get_encoding("o200k_base")
@@ -54,5 +54,7 @@ module DiscourseAi
         end
       end
     end
+    OpenAiTokenizer = OpenAiO200kTokenizer
   end
 end

data/lib/discourse_ai/tokenizers/version.rb CHANGED Viewed

@@ -2,6 +2,6 @@
 module DiscourseAi
   module Tokenizers
-    VERSION = "0.2.0"
+    VERSION = "0.3.0"
   end
 end

data/lib/discourse_ai/tokenizers.rb CHANGED Viewed

@@ -8,6 +8,7 @@ require_relative "tokenizer/basic_tokenizer"
 require_relative "tokenizer/bert_tokenizer"
 require_relative "tokenizer/anthropic_tokenizer"
 require_relative "tokenizer/open_ai_tokenizer"
+require_relative "tokenizer/open_ai_cl100k_tokenizer"
 require_relative "tokenizer/all_mpnet_base_v2_tokenizer"
 require_relative "tokenizer/multilingual_e5_large_tokenizer"
 require_relative "tokenizer/bge_large_en_tokenizer"

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: discourse_ai-tokenizers
 version: !ruby/object:Gem::Version
-  version: 0.2.0
+  version: 0.3.0
 platform: ruby
 authors:
 - Rafael Silva
@@ -106,6 +106,7 @@ files:
 - lib/discourse_ai/tokenizer/llama3_tokenizer.rb
 - lib/discourse_ai/tokenizer/mistral_tokenizer.rb
 - lib/discourse_ai/tokenizer/multilingual_e5_large_tokenizer.rb
+- lib/discourse_ai/tokenizer/open_ai_cl100k_tokenizer.rb
 - lib/discourse_ai/tokenizer/open_ai_tokenizer.rb
 - lib/discourse_ai/tokenizer/qwen_tokenizer.rb
 - lib/discourse_ai/tokenizers.rb