RubyGems - bcp47_spec - Versions diffs - 0.2.0 → 0.2.1 - Mend

bcp47_spec 0.2.0 → 0.2.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 1b7ac3631986a8b1fd3df0f12f8a7358ba0523dbdb7d16c5bba5b61a53ae5a02
-  data.tar.gz: 99813e4da3415417889603d1ee9daab2c31b5468ecc1246cb7095140b49791d0
+  metadata.gz: 2039159ce3a6ad3a971a0fd8d0119c83ef6727447651cc4eacfe0a2cca9dab15
+  data.tar.gz: d3c6f3bf99c68cfe41612d26ca2ce50de63244cc2928c1ec4c6532368cdecb42
 SHA512:
-  metadata.gz: 27717b3a58240861bd7bbfa8ed2ac94370d01039c0c2ae002959fdd5a5e98e4a2e3f67b262120c46347f9ce9d4cfc00cdd9dd2dc39e70f5bca0312979b9f4a6f
-  data.tar.gz: d36beae7a694d77563b09cac2958515edc9f6d630bf54f01786fa13e7f57defc3d5639f42a1b2e429e97d74b59c8b38c9f757efe5a95f51c9b7b191afbc8fe1f
+  metadata.gz: 32ad050b2858a0300439ef971602706f387722e52ca8b64be443bc325fd0c8523e33eecbdc63a20c01b583b33da90578a15b16744574749b523813e2618cf4d8
+  data.tar.gz: 792e8721f1b5b894f0632e4b64a7734a93a8f8900cc00faae9a0cef4cdc862c6a7fe96014177a048804ab4ff4d1872b8b1c6313cf2392e78eacae72b7eb179ea

data/lib/bcp47_spec/parser.rb CHANGED Viewed

@@ -1,135 +1,137 @@
 # frozen_string_literal: true
-module BCP47::Parser
-  # https://tools.ietf.org/html/bcp47#section-2.1
-  # Augmented BNF for Syntax Specifications: https://tools.ietf.org/html/rfc5234
-  # Language-Tag  = langtag             ; normal language tags
-  #               / privateuse          ; private use tag
-  #               / grandfathered       ; grandfathered tags
-  # langtag       = language
-  #                 ["-" script]
-  #                 ["-" region]
-  #                 *("-" variant)
-  #                 *("-" extension)
-  #                 ["-" privateuse]
-  # language      = 2*3ALPHA            ; shortest ISO 639 code
-  #                 ["-" extlang]       ; sometimes followed by
-  #                                     ; extended language subtags
-  #               / 4ALPHA              ; or reserved for future use
-  #               / 5*8ALPHA            ; or registered language subtag
-  # extlang       = 3ALPHA              ; selected ISO 639 codes
-  #                 *2("-" 3ALPHA)      ; permanently reserved
-  # script        = 4ALPHA              ; ISO 15924 code
-  # region        = 2ALPHA              ; ISO 3166-1 code
-  #               / 3DIGIT              ; UN M.49 code
-  # variant       = 5*8alphanum         ; registered variants
-  #               / (DIGIT 3alphanum)
-  # extension     = singleton 1*("-" (2*8alphanum))
-  #                                     ; Single alphanumerics
-  #                                     ; "x" reserved for private use
-  # singleton     = DIGIT               ; 0 - 9
-  #               / %x41-57             ; A - W
-  #               / %x59-5A             ; Y - Z
-  #               / %x61-77             ; a - w
-  #               / %x79-7A             ; y - z
-  # privateuse    = "x" 1*("-" (1*8alphanum))
-  # grandfathered = irregular           ; non-redundant tags registered
-  #               / regular             ; during the RFC 3066 era
-  # irregular     = "en-GB-oed"         ; irregular tags do not match
-  #               / "i-ami"             ; the 'langtag' production and
-  #               / "i-bnn"             ; would not otherwise be
-  #               / "i-default"         ; considered 'well-formed'
-  #               / "i-enochian"        ; These tags are all valid,
-  #               / "i-hak"             ; but most are deprecated
-  #               / "i-klingon"         ; in favor of more modern
-  #               / "i-lux"             ; subtags or subtag
-  #               / "i-mingo"           ; combination
-  #               / "i-navajo"
-  #               / "i-pwn"
-  #               / "i-tao"
-  #               / "i-tay"
-  #               / "i-tsu"
-  #               / "sgn-BE-FR"
-  #               / "sgn-BE-NL"
-  #               / "sgn-CH-DE"
-  # regular       = "art-lojban"        ; these tags match the 'langtag'
-  #               / "cel-gaulish"       ; production, but their subtags
-  #               / "no-bok"            ; are not extended language
-  #               / "no-nyn"            ; or variant subtags: their meaning
-  #               / "zh-guoyu"          ; is defined by their registration
-  #               / "zh-hakka"          ; and all of these are deprecated
-  #               / "zh-min"            ; in favor of a more modern
-  #               / "zh-min-nan"        ; subtag or sequence of subtags
-  #               / "zh-xiang"
-  # alphanum      = (ALPHA / DIGIT)     ; letters and numbers
-  # Simplified check. Not implementing high level privateuse / grandfathered.
-  # Should replace with a proper check at some point.
-  ALPHANUM = /[a-zA-Z\d]/
-  SINGLETON = /[\dA-WY-Za-wy-z]/
-  EXTLANG = /[a-zA-Z]{3}(-[a-zA-Z]{3}){0,2}/
-  LANGUAGE   = /([a-zA-Z]{2,3}(-#{EXTLANG})?|[a-zA-Z]{4}|[a-zA-Z]{5,8})/
-  SCRIPT     = /[a-zA-Z]{4}/
-  REGION     = /([a-zA-Z]{2}|\d{3})/
-  VARIANT    = /(#{ALPHANUM}{5,8}|\d#{ALPHANUM}{3})/
-  EXTENSION  = /#{SINGLETON}(-[a-zA-Z]{2,8})+/
-  PRIVATEUSE = /x(-#{ALPHANUM}{1,8})+/
-  # Ruby .match only keeps the first captured group, so expressions like variants/extensions we need to keep everything
-  # in one captured group, then break them down in multipe groups separately
-  LANGTAG = %r{
-    (?<language>#{LANGUAGE})
-    (-(?<script>#{SCRIPT}))?
-    (-(?<region>#{REGION}))?
-    (?<variants>(-#{VARIANT})*)
-    (?<extensions>(-#{EXTENSION})*)
-    (-(?<private>#{PRIVATEUSE}))?
-  }x
-  LANGUAGE_TAG = /\A#{LANGTAG}\z/
-  class << self
-    def parse(language_tag)
-      return unless match = language_tag.match(LANGUAGE_TAG)
-      named_captures(match).tap do |captures|
-        captures['variants']   = captures['variants'].to_s.empty? ? [] : captures['variants'][/-(.*)/, 1].split('-').sort
-        captures['extensions'] = split_extensions(captures['extensions'])
-        captures['private']    = captures['private'].to_s.empty? ? [] : captures['private'][/x-(.*)/, 1].split('-').sort
+module BCP47
+  module Parser
+    # https://tools.ietf.org/html/bcp47#section-2.1
+    # Augmented BNF for Syntax Specifications: https://tools.ietf.org/html/rfc5234
+    # Language-Tag  = langtag             ; normal language tags
+    #               / privateuse          ; private use tag
+    #               / grandfathered       ; grandfathered tags
+    # langtag       = language
+    #                 ["-" script]
+    #                 ["-" region]
+    #                 *("-" variant)
+    #                 *("-" extension)
+    #                 ["-" privateuse]
+    # language      = 2*3ALPHA            ; shortest ISO 639 code
+    #                 ["-" extlang]       ; sometimes followed by
+    #                                     ; extended language subtags
+    #               / 4ALPHA              ; or reserved for future use
+    #               / 5*8ALPHA            ; or registered language subtag
+    # extlang       = 3ALPHA              ; selected ISO 639 codes
+    #                 *2("-" 3ALPHA)      ; permanently reserved
+    # script        = 4ALPHA              ; ISO 15924 code
+    # region        = 2ALPHA              ; ISO 3166-1 code
+    #               / 3DIGIT              ; UN M.49 code
+    # variant       = 5*8alphanum         ; registered variants
+    #               / (DIGIT 3alphanum)
+    # extension     = singleton 1*("-" (2*8alphanum))
+    #                                     ; Single alphanumerics
+    #                                     ; "x" reserved for private use
+    # singleton     = DIGIT               ; 0 - 9
+    #               / %x41-57             ; A - W
+    #               / %x59-5A             ; Y - Z
+    #               / %x61-77             ; a - w
+    #               / %x79-7A             ; y - z
+    # privateuse    = "x" 1*("-" (1*8alphanum))
+    # grandfathered = irregular           ; non-redundant tags registered
+    #               / regular             ; during the RFC 3066 era
+    # irregular     = "en-GB-oed"         ; irregular tags do not match
+    #               / "i-ami"             ; the 'langtag' production and
+    #               / "i-bnn"             ; would not otherwise be
+    #               / "i-default"         ; considered 'well-formed'
+    #               / "i-enochian"        ; These tags are all valid,
+    #               / "i-hak"             ; but most are deprecated
+    #               / "i-klingon"         ; in favor of more modern
+    #               / "i-lux"             ; subtags or subtag
+    #               / "i-mingo"           ; combination
+    #               / "i-navajo"
+    #               / "i-pwn"
+    #               / "i-tao"
+    #               / "i-tay"
+    #               / "i-tsu"
+    #               / "sgn-BE-FR"
+    #               / "sgn-BE-NL"
+    #               / "sgn-CH-DE"
+    # regular       = "art-lojban"        ; these tags match the 'langtag'
+    #               / "cel-gaulish"       ; production, but their subtags
+    #               / "no-bok"            ; are not extended language
+    #               / "no-nyn"            ; or variant subtags: their meaning
+    #               / "zh-guoyu"          ; is defined by their registration
+    #               / "zh-hakka"          ; and all of these are deprecated
+    #               / "zh-min"            ; in favor of a more modern
+    #               / "zh-min-nan"        ; subtag or sequence of subtags
+    #               / "zh-xiang"
+    # alphanum      = (ALPHA / DIGIT)     ; letters and numbers
+    # Simplified check. Not implementing high level privateuse / grandfathered.
+    # Should replace with a proper check at some point.
+    ALPHANUM = /[a-zA-Z\d]/
+    SINGLETON = /[\dA-WY-Za-wy-z]/
+    EXTLANG = /[a-zA-Z]{3}(-[a-zA-Z]{3}){0,2}/
+    LANGUAGE   = /([a-zA-Z]{2,3}(-#{EXTLANG})?|[a-zA-Z]{4}|[a-zA-Z]{5,8})/
+    SCRIPT     = /[a-zA-Z]{4}/
+    REGION     = /([a-zA-Z]{2}|\d{3})/
+    VARIANT    = /(#{ALPHANUM}{5,8}|\d#{ALPHANUM}{3})/
+    EXTENSION  = /#{SINGLETON}(-[a-zA-Z]{2,8})+/
+    PRIVATEUSE = /x(-#{ALPHANUM}{1,8})+/
+    # Ruby .match only keeps the first captured group, so expressions like variants/extensions we need to keep everything
+    # in one captured group, then break them down in multipe groups separately
+    LANGTAG = %r{
+      (?<language>#{LANGUAGE})
+      (-(?<script>#{SCRIPT}))?
+      (-(?<region>#{REGION}))?
+      (?<variants>(-#{VARIANT})*)
+      (?<extensions>(-#{EXTENSION})*)
+      (-(?<private>#{PRIVATEUSE}))?
+    }x
+    LANGUAGE_TAG = /\A#{LANGTAG}\z/
+    class << self
+      def parse(language_tag)
+        return unless match = language_tag.match(LANGUAGE_TAG)
+        named_captures(match).tap do |captures|
+          captures['variants']   = captures['variants'].to_s.empty? ? [] : captures['variants'][/-(.*)/, 1].split('-').sort
+          captures['extensions'] = split_extensions(captures['extensions'])
+          captures['private']    = captures['private'].to_s.empty? ? [] : captures['private'][/x-(.*)/, 1].split('-').sort
+        end
       end
-    end
-    private
+      private
-    def named_captures(match)
-      return match.named_captures if match.respond_to?(:named_captures)
+      def named_captures(match)
+        return match.named_captures if match.respond_to?(:named_captures)
-      match.names.each_with_object({}) { |name, acc| acc[name] = match[name] }
-    end
+        match.names.each_with_object({}) { |name, acc| acc[name] = match[name] }
+      end
-    def split_extensions(extensions)
-      return [] if extensions.to_s.empty?
+      def split_extensions(extensions)
+        return [] if extensions.to_s.empty?
-      # [["u-attr-co-phonebk"], ["t-und-cyrl"]]
-      extensions = extensions.scan(/\b(?<ext>#{EXTENSION})\b/)
-      # [["t", "und-cyrl"], ["u", "attr-co-phonebk"]]
-      extensions.flatten.sort.map { |st| st.split('-', 2) }
+        # [["u-attr-co-phonebk"], ["t-und-cyrl"]]
+        extensions = extensions.scan(/\b(?<ext>#{EXTENSION})\b/)
+        # [["t", "und-cyrl"], ["u", "attr-co-phonebk"]]
+        extensions.flatten.sort.map { |st| st.split('-', 2) }
+      end
     end
   end
 end

data/lib/bcp47_spec/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module BCP47
-  VERSION = '0.2.0'.freeze
+  VERSION = '0.2.1'.freeze
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: bcp47_spec
 version: !ruby/object:Gem::Version
-  version: 0.2.0
+  version: 0.2.1
 platform: ruby
 authors:
 - Igor Justino