RubyGems - unicode_script_detector - Versions diffs - 0.0.4 → 0.0.6 - Mend

unicode_script_detector 0.0.4 → 0.0.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

checksums.yaml +4 -4
data/README.md +30 -8
data/lib/unicode_script_detector/character.rb +13 -1
data/lib/unicode_script_detector/detector.rb +45 -25
data/lib/unicode_script_detector/script_group.rb +20 -0
data/lib/unicode_script_detector/scripts.rb +6 -1
data/lib/unicode_script_detector/version.rb +1 -1
data/lib/unicode_script_detector.rb +5 -1
metadata +4 -3

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: d80a777771e5076bfb67e1b63ea3a0900f9ca53b16b0e90224608b60c06c78bc
-  data.tar.gz: 266e4ca3ad0728cacbd4a4f37819f271b22205a893f5750c14c862bda8d5cdc2
+  metadata.gz: 58ac1a16218a1a336bb9c2fa6c75c5519a69a6c846c1007ffd236d991f3ef223
+  data.tar.gz: 11c82345a0b3990737b1c1a85c97d6c7552644a10e0c1d9265a4a46e4a0a9ce3
 SHA512:
-  metadata.gz: a0d6741c40ae5adfde691ec742b1bc5440e2b45f265d448cda9b6c40978843404b05419e82ebad258ef40e752bcaffb26c985e625cb52025de7ae37b7aee505a
-  data.tar.gz: 2c81a22c0cb25ec024eb875f4da5a19891bff344acf7daaaa8a4155caf89e0ba77021d5b475b3b3f8e986eaf1b6be8bf8e20747a88afdbd0bfdd083d344c2680
+  metadata.gz: baad85a939325ce58dc96c132e103b81bf1c9cd0f4a3120675bb6db7ec81bad305759b40da55e8d868128baa3d5bbdf3e28d044ae6f735d0ebce5ed4f89bb190
+  data.tar.gz: cfc04d633c2bdbbb0810c505d1cb6d671045b4b0c3651584be63231cb9b722a413c65c59487dbf5953374646af7bdc953ec7e66c4b71c7c1ad069004c8d9dd46

data/README.md CHANGED Viewed

@@ -20,23 +20,45 @@ $ gem install unicode_script_detector
 UnicodeScriptDetector.detect_characters "Hel6б"
 #Output:
-[#<UnicodeScriptDetector::Character:0x00007768fefdead8 @char="H", @name="Latin", @script=:Latin>,
- #<UnicodeScriptDetector::Character:0x00007768fefdea10 @char="e", @name="Latin", @script=:Latin>,
- #<UnicodeScriptDetector::Character:0x00007768fefde970 @char="l", @name="Latin", @script=:Latin>,
- #<UnicodeScriptDetector::Character:0x00007768fefde8d0 @char="6", @name="Digit", @script=:Digit>,
- #<UnicodeScriptDetector::Character:0x00007768fefde830 @char="б", @name="Cyrillic", @script=:Cyrillic>]
+[
+  #<UnicodeScriptDetector::Character:0x00007768fefdead8 @char="H", @name="Latin", @script=:Latin>,
+  #<UnicodeScriptDetector::Character:0x00007768fefdea10 @char="e", @name="Latin", @script=:Latin>,
+  #<UnicodeScriptDetector::Character:0x00007768fefde970 @char="l", @name="Latin", @script=:Latin>,
+  #<UnicodeScriptDetector::Character:0x00007768fefde8d0 @char="6", @name="Digit", @script=:Digit>,
+  #<UnicodeScriptDetector::Character:0x00007768fefde830 @char="б", @name="Cyrillic", @script=:Cyrillic>
+]
 ```
 ## Detect if a script contains certain scripts
 ```ruby
 # This will return true because it contains Latin and Cyrillic
-UnicodeScriptDetector.contains? "Hellб🔥", [:Latin, :Cyrillic]
+UnicodeScriptDetector.contains? "Helб🔥", [:Latin, :Cyrillic]
 ```
 ## Detect if a script contains only certain scripts
 ```ruby
 # This will return false because it contains an Emoji as well
-UnicodeScriptDetector.contains_only? "Hellб🔥", [:Latin, :Cyrillic]
+UnicodeScriptDetector.contains_only? "Helб🔥", [:Latin, :Cyrillic]
+```
+## Detect all the characters of a string, grouped by the script
+```ruby
+UnicodeScriptDetector.script_groups("Hel6б how are you?").each do |group|
+  puts "#{group.name}: #{group.text} (#{group.length} characters)"
+end
+#Output:
+Latin: Hel (3 characters)
+Digit: 6 (1 characters)
+Cyrillic: б (1 characters)
+Whitespace:   (1 characters)
+Latin: how (3 characters)
+Whitespace:   (1 characters)
+Latin: are (3 characters)
+Whitespace:   (1 characters)
+Latin: you (3 characters)
+Punctuation: ? (1 characters)
 ```
 ## Development
@@ -47,4 +69,4 @@ Run the tests with `bin/test`.
 You're welcome to contribute to this project. See https://github.com/davidarendsen/unicode_script_detector.
 ## License
-This software is released under the [MIT license](LICENSE).
+This software is released under the [MIT license](LICENSE).

data/lib/unicode_script_detector/character.rb CHANGED Viewed

@@ -15,5 +15,17 @@ module UnicodeScriptDetector
     def hiragana?
       @script === :Hiragana
     end
+    def punctuation?
+      @script === :Punctuation
+    end
+    def emoji?
+      @script === :Emoji
+    end
+    def digit?
+      @script === :Digit
+    end
   end
-end
+end

data/lib/unicode_script_detector/detector.rb CHANGED Viewed

@@ -1,45 +1,65 @@
 module UnicodeScriptDetector
   class Detector
-    attr_reader :characters, :scripts
+    attr_reader :scripts
     def initialize(string)
       @string = string
-      @characters = []
-      @scripts = []
+      @char_scripts = []
+      @script_names = []
       detect_scripts
     end
     def scripts
-      @scripts.uniq
+      @char_scripts.uniq
     end
-    def detect_scripts
-      @string.chars.each_with_index do |char, index|
-        detected = false
-        Scripts::LIST.each_with_index do |script_data, index|
-          if char.match?(script_data[:regex])
-            @characters << Character.new(char, script_data[:script], script_data[:name])
-            @scripts << script_data[:script]
-            detected = true
-            break
-          end
-        end
-        @characters << Character.new(char, :Other, "Other") unless detected
-        @scripts << :Other unless detected
-      end
+    def contains?(scripts)
+      return @char_scripts.include?(scripts) if scripts.is_a?(Symbol)
+      scripts.all? { |script| @char_scripts.include?(script) }
     end
-    def contains?(scripts)
-      return @scripts.include?(scripts) if scripts.is_a?(Symbol)
+    def contains_only?(scripts)
+      return @char_scripts.uniq == [scripts] if scripts.is_a?(Symbol)
+      @char_scripts.uniq.sort == scripts.uniq.sort
+    end
-      scripts.all? { |script| @scripts.include?(script) }
+    def script_groups
+      @string.chars
+        .zip(@char_scripts, @script_names)
+        .chunk { |_, script, _| script }
+        .map do |script, char_data|
+          chars = char_data.map(&:first)
+          name = char_data.first[2]
+          ScriptGroup.new(script, chars, name)
+        end
     end
-    def contains_only?(scripts)
-      return @scripts.uniq == [scripts] if scripts.is_a?(Symbol)
+    def grouped_scripts_hash
+      script_groups.map { |group| [group.script, group.text] }.to_h
+    end
-      @scripts.uniq.sort == scripts.uniq.sort
+    def characters
+      @characters ||= @string.chars.zip(@char_scripts, @script_names).map do |char, script, name|
+        Character.new(char, script, name)
+      end
     end
+    private
+      def detect_scripts
+        @string.chars.each do |char|
+          script_info = find_script_for_char(char)
+          @char_scripts << script_info[:script]
+          @script_names << script_info[:name]
+        end
+      end
+      def find_script_for_char(char)
+        Scripts::LIST.each do |script_data|
+          return script_data if char.match?(script_data[:regex])
+        end
+        { script: :Other, name: "Other" }
+      end
   end
-end
+end

data/lib/unicode_script_detector/script_group.rb ADDED Viewed

@@ -0,0 +1,20 @@
+module UnicodeScriptDetector
+  class ScriptGroup
+    attr_reader :script, :text, :name
+    def initialize(script, chars, name)
+      @script = script
+      @chars = chars
+      @text = chars.join
+      @name = name
+    end
+    def length
+      @chars.length
+    end
+    def characters
+      @characters ||= @chars.map { |char| Character.new(char, @script, @name) }
+    end
+  end
+end

data/lib/unicode_script_detector/scripts.rb CHANGED Viewed

@@ -837,7 +837,12 @@ module UnicodeScriptDetector
       {
         script: :Emoji,
         name: "Emoji",
-        regex: /\p{Emoji}/,
+        regex: /\p{Emoji_Presentation}/,
+      },
+      {
+        script: :Punctuation,
+        name: "Punctuation",
+        regex: /[[:punct:]]/
       },
       {
         script: :Common,

data/lib/unicode_script_detector/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module UnicodeScriptDetector
-  VERSION = "0.0.4"
+  VERSION = "0.0.6"
 end

data/lib/unicode_script_detector.rb CHANGED Viewed

@@ -9,6 +9,10 @@ module UnicodeScriptDetector
       UnicodeScriptDetector::Detector.new(string).characters
     end
+    def script_groups(string)
+      UnicodeScriptDetector::Detector.new(string).script_groups
+    end
     def contains?(string, scripts)
       UnicodeScriptDetector::Detector.new(string).contains?(scripts)
     end
@@ -17,4 +21,4 @@ module UnicodeScriptDetector
       UnicodeScriptDetector::Detector.new(string).contains_only?(scripts)
     end
   end
-end
+end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: unicode_script_detector
 version: !ruby/object:Gem::Version
-  version: 0.0.4
+  version: 0.0.6
 platform: ruby
 authors:
 - David Arendsen
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2024-12-04 00:00:00.000000000 Z
+date: 2026-01-02 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: zeitwerk
@@ -55,6 +55,7 @@ files:
 - lib/unicode_script_detector.rb
 - lib/unicode_script_detector/character.rb
 - lib/unicode_script_detector/detector.rb
+- lib/unicode_script_detector/script_group.rb
 - lib/unicode_script_detector/scripts.rb
 - lib/unicode_script_detector/version.rb
 homepage: https://github.com/davidarendsen/unicode_script_detector
@@ -79,7 +80,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.5.23
+rubygems_version: 3.5.11
 signing_key:
 specification_version: 4
 summary: Unicode Script Detector