RubyGems - unicode_script_detector - Versions diffs - 0.0.5 → 0.0.6 - Mend

unicode_script_detector 0.0.5 → 0.0.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml +4 -4
data/lib/unicode_script_detector/detector.rb +39 -29
data/lib/unicode_script_detector/script_group.rb +8 -7
data/lib/unicode_script_detector/scripts.rb +6 -6
data/lib/unicode_script_detector/version.rb +1 -1
metadata +2 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 4795cdb246ac34ccb0ee5183ff0e704d25e4e67410acee321f36f4446dd28356
-  data.tar.gz: 0c7b9c4c835718f2fc7509225204e38c0a7148949c5745f1448b299c27e0e88d
+  metadata.gz: 58ac1a16218a1a336bb9c2fa6c75c5519a69a6c846c1007ffd236d991f3ef223
+  data.tar.gz: 11c82345a0b3990737b1c1a85c97d6c7552644a10e0c1d9265a4a46e4a0a9ce3
 SHA512:
-  metadata.gz: 5da7422c57295f4ac3dee3ac9ccfaa99b5586418de956a88876035541da023e9fa4afe609a4aa79d4c3a1a5f9b1ffe64370984657844c06fc6a575578beb5ee2
-  data.tar.gz: aa9fecf48386b6eb5a0074cbbec8819af80153c6111e042debd9e9c312145bc11a936b3003a406370a28e8a27a48b2bd0409c0cf043b26fe465f4c58ee9669e2
+  metadata.gz: baad85a939325ce58dc96c132e103b81bf1c9cd0f4a3120675bb6db7ec81bad305759b40da55e8d868128baa3d5bbdf3e28d044ae6f735d0ebce5ed4f89bb190
+  data.tar.gz: cfc04d633c2bdbbb0810c505d1cb6d671045b4b0c3651584be63231cb9b722a413c65c59487dbf5953374646af7bdc953ec7e66c4b71c7c1ad069004c8d9dd46

data/lib/unicode_script_detector/detector.rb CHANGED Viewed

@@ -1,55 +1,65 @@
 module UnicodeScriptDetector
   class Detector
-    attr_reader :characters, :scripts
+    attr_reader :scripts
     def initialize(string)
       @string = string
-      @characters = []
-      @scripts = []
+      @char_scripts = []
+      @script_names = []
       detect_scripts
     end
     def scripts
-      @scripts.uniq
-    end
-    def detect_scripts
-      @string.chars.each_with_index do |char, index|
-        detected = false
-        Scripts::LIST.each_with_index do |script_data, index|
-          if char.match?(script_data[:regex])
-            @characters << Character.new(char, script_data[:script], script_data[:name])
-            @scripts << script_data[:script]
-            detected = true
-            break
-          end
-        end
-        @characters << Character.new(char, :Other, "Other") unless detected
-        @scripts << :Other unless detected
-      end
+      @char_scripts.uniq
     end
     def contains?(scripts)
-      return @scripts.include?(scripts) if scripts.is_a?(Symbol)
-      scripts.all? { |script| @scripts.include?(script) }
+      return @char_scripts.include?(scripts) if scripts.is_a?(Symbol)
+      scripts.all? { |script| @char_scripts.include?(script) }
     end
     def contains_only?(scripts)
-      return @scripts.uniq == [scripts] if scripts.is_a?(Symbol)
-      @scripts.uniq.sort == scripts.uniq.sort
+      return @char_scripts.uniq == [scripts] if scripts.is_a?(Symbol)
+      @char_scripts.uniq.sort == scripts.uniq.sort
     end
     def script_groups
-      @characters
-        .chunk { |char| char.script }
-        .map { |script, chars| ScriptGroup.new(script, chars) }
+      @string.chars
+        .zip(@char_scripts, @script_names)
+        .chunk { |_, script, _| script }
+        .map do |script, char_data|
+          chars = char_data.map(&:first)
+          name = char_data.first[2]
+          ScriptGroup.new(script, chars, name)
+        end
     end
     def grouped_scripts_hash
       script_groups.map { |group| [group.script, group.text] }.to_h
     end
+    def characters
+      @characters ||= @string.chars.zip(@char_scripts, @script_names).map do |char, script, name|
+        Character.new(char, script, name)
+      end
+    end
+    private
+      def detect_scripts
+        @string.chars.each do |char|
+          script_info = find_script_for_char(char)
+          @char_scripts << script_info[:script]
+          @script_names << script_info[:name]
+        end
+      end
+      def find_script_for_char(char)
+        Scripts::LIST.each do |script_data|
+          return script_data if char.match?(script_data[:regex])
+        end
+        { script: :Other, name: "Other" }
+      end
   end
 end

data/lib/unicode_script_detector/script_group.rb CHANGED Viewed

@@ -1,19 +1,20 @@
 module UnicodeScriptDetector
   class ScriptGroup
-    attr_reader :script, :characters, :text
+    attr_reader :script, :text, :name
-    def initialize(script, characters)
+    def initialize(script, chars, name)
       @script = script
-      @characters = characters
-      @text = characters.map(&:char).join
+      @chars = chars
+      @text = chars.join
+      @name = name
     end
     def length
-      @characters.length
+      @chars.length
     end
-    def name
-      @characters.first&.name
+    def characters
+      @characters ||= @chars.map { |char| Character.new(char, @script, @name) }
     end
   end
 end

data/lib/unicode_script_detector/scripts.rb CHANGED Viewed

@@ -11,11 +11,6 @@ module UnicodeScriptDetector
         name: "Digit",
         regex: /\d/
       },
-      {
-        script: :Punctuation,
-        name: "Punctuation",
-        regex: /[[:punct:]]/
-      },
       {
         script: :Adlam,
         name: "Adlam",
@@ -842,7 +837,12 @@ module UnicodeScriptDetector
       {
         script: :Emoji,
         name: "Emoji",
-        regex: /\p{Emoji}/,
+        regex: /\p{Emoji_Presentation}/,
+      },
+      {
+        script: :Punctuation,
+        name: "Punctuation",
+        regex: /[[:punct:]]/
       },
       {
         script: :Common,

data/lib/unicode_script_detector/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module UnicodeScriptDetector
-  VERSION = "0.0.5"
+  VERSION = "0.0.6"
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: unicode_script_detector
 version: !ruby/object:Gem::Version
-  version: 0.0.5
+  version: 0.0.6
 platform: ruby
 authors:
 - David Arendsen
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2025-12-31 00:00:00.000000000 Z
+date: 2026-01-02 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: zeitwerk