RubyGems - kebab - Versions diffs - 1.0.2 - Mend

kebab 1.0.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (55) hide show

checksums.yaml +7 -0
data/.gemtest +0 -0
data/Changelog.md +99 -0
data/MIT-LICENSE +19 -0
data/README.md +26 -0
data/Rakefile +34 -0
data/lib/kebab.rb +18 -0
data/lib/kebab/identifier.rb +294 -0
data/lib/kebab/transliterator/base.rb +110 -0
data/lib/kebab/transliterator/bulgarian.rb +27 -0
data/lib/kebab/transliterator/cyrillic.rb +108 -0
data/lib/kebab/transliterator/danish.rb +15 -0
data/lib/kebab/transliterator/german.rb +15 -0
data/lib/kebab/transliterator/greek.rb +77 -0
data/lib/kebab/transliterator/hindi.rb +137 -0
data/lib/kebab/transliterator/latin.rb +199 -0
data/lib/kebab/transliterator/macedonian.rb +29 -0
data/lib/kebab/transliterator/norwegian.rb +14 -0
data/lib/kebab/transliterator/romanian.rb +13 -0
data/lib/kebab/transliterator/russian.rb +22 -0
data/lib/kebab/transliterator/serbian.rb +34 -0
data/lib/kebab/transliterator/spanish.rb +9 -0
data/lib/kebab/transliterator/swedish.rb +16 -0
data/lib/kebab/transliterator/turkish.rb +8 -0
data/lib/kebab/transliterator/ukrainian.rb +30 -0
data/lib/kebab/transliterator/vietnamese.rb +143 -0
data/lib/kebab/utf8/active_support_proxy.rb +26 -0
data/lib/kebab/utf8/dumb_proxy.rb +49 -0
data/lib/kebab/utf8/java_proxy.rb +22 -0
data/lib/kebab/utf8/mappings.rb +193 -0
data/lib/kebab/utf8/proxy.rb +125 -0
data/lib/kebab/utf8/unicode_proxy.rb +23 -0
data/lib/kebab/version.rb +5 -0
data/spec/kebab_spec.rb +155 -0
data/spec/spec_helper.rb +45 -0
data/spec/transliterators/base_spec.rb +16 -0
data/spec/transliterators/bulgarian_spec.rb +20 -0
data/spec/transliterators/danish_spec.rb +17 -0
data/spec/transliterators/german_spec.rb +17 -0
data/spec/transliterators/greek_spec.rb +17 -0
data/spec/transliterators/hindi_spec.rb +17 -0
data/spec/transliterators/latin_spec.rb +9 -0
data/spec/transliterators/macedonian_spec.rb +9 -0
data/spec/transliterators/norwegian_spec.rb +18 -0
data/spec/transliterators/polish_spec.rb +14 -0
data/spec/transliterators/romanian_spec.rb +19 -0
data/spec/transliterators/russian_spec.rb +9 -0
data/spec/transliterators/serbian_spec.rb +25 -0
data/spec/transliterators/spanish_spec.rb +13 -0
data/spec/transliterators/swedish_spec.rb +18 -0
data/spec/transliterators/turkish_spec.rb +24 -0
data/spec/transliterators/ukrainian_spec.rb +88 -0
data/spec/transliterators/vietnamese_spec.rb +18 -0
data/spec/utf8_proxy_spec.rb +53 -0
metadata +167 -0

data/lib/kebab/transliterator/base.rb ADDED

@@ -0,0 +1,110 @@
+# encoding: utf-8
+require 'singleton'
+module Kebab
+  module Transliterator
+    autoload :Bulgarian,  "kebab/transliterator/bulgarian"
+    autoload :Cyrillic,   "kebab/transliterator/cyrillic"
+    autoload :Danish,     "kebab/transliterator/danish"
+    autoload :German,     "kebab/transliterator/german"
+    autoload :Hindi,      "kebab/transliterator/hindi"
+    autoload :Latin,      "kebab/transliterator/latin"
+    autoload :Macedonian, "kebab/transliterator/macedonian"
+    autoload :Norwegian,  "kebab/transliterator/norwegian"
+    autoload :Romanian,   "kebab/transliterator/romanian"
+    autoload :Russian,    "kebab/transliterator/russian"
+    autoload :Serbian,    "kebab/transliterator/serbian"
+    autoload :Spanish,    "kebab/transliterator/spanish"
+    autoload :Swedish,    "kebab/transliterator/swedish"
+    autoload :Ukrainian,  "kebab/transliterator/ukrainian"
+    autoload :Greek,      "kebab/transliterator/greek"
+    autoload :Vietnamese, "kebab/transliterator/vietnamese"
+    autoload :Turkish,    "kebab/transliterator/turkish"
+    def self.get(symbol)
+      class_name = symbol.to_s.split("_").map {|a| a.gsub(/\b('?[a-z])/) { $1.upcase }}.join
+      const_get(class_name)
+    end
+    class Base
+      include Singleton
+      APPROXIMATIONS = {
+        "×" => "x",
+        "÷" => "/",
+        "‐" => "-",
+        "‑" => "-",
+        "‒" => "-",
+        "–" => "-",
+        "—" => "-",
+        "―" => "-",
+        "‘" => "'",
+        "‛" => "'",
+        "“" => '"',
+        "”" => '"',
+        "„" => '"',
+        "‟" => '"',
+        '’' => "'",
+        '，' => ",",
+        '。' => ".",
+        '！' => "!",
+        '？' => '?',
+        '、' => ',',
+        '（' => '(',
+        '）' => ')',
+        '【' => '[',
+        '】' => ']',
+        '；' => ';',
+        '：' => ':',
+        '《' => '<',
+        '》' => '>',
+        # various kinds of space characters
+        "\xc2\xa0"     => " ",
+        "\xe2\x80\x80" => " ",
+        "\xe2\x80\x81" => " ",
+        "\xe2\x80\x82" => " ",
+        "\xe2\x80\x83" => " ",
+        "\xe2\x80\x84" => " ",
+        "\xe2\x80\x85" => " ",
+        "\xe2\x80\x86" => " ",
+        "\xe2\x80\x87" => " ",
+        "\xe2\x80\x88" => " ",
+        "\xe2\x80\x89" => " ",
+        "\xe2\x80\x8a" => " ",
+        "\xe2\x81\x9f" => " ",
+        "\xe3\x80\x80" => " ",
+      }.freeze
+      attr_reader :approximations
+      def initialize
+        if self.class < Base
+          @approximations = self.class.superclass.instance.approximations.dup
+        else
+          @approximations = {}
+        end
+        self.class.const_get(:APPROXIMATIONS).inject(@approximations) do |memo, object|
+          index       = object[0].unpack("U").shift
+          value       = object[1].unpack("C*")
+          memo[index] = value.length == 1 ? value[0] : value
+          memo
+        end
+        @approximations.freeze
+      end
+      # Accepts a single UTF-8 codepoint and returns the ASCII character code
+      # used as the transliteration value.
+      def [](codepoint)
+        @approximations[codepoint]
+      end
+      # Transliterates a string.
+      def transliterate(string)
+        string.unpack("U*").map {|char| self[char] || char}.flatten.pack("U*")
+      end
+    end
+  end
+end

data/lib/kebab/transliterator/bulgarian.rb ADDED

@@ -0,0 +1,27 @@
+# encoding: utf-8
+module Kebab
+  module Transliterator
+    class Bulgarian < Cyrillic
+      APPROXIMATIONS = {
+        "Ж" => "J",
+        "Й" => "I",
+        "Х" => "H",
+        "Ц" => "C",
+        "Щ" => "Sht",
+        "Ъ" => "U",
+        "Ь" => "I",
+        "Ю" => "Iu",
+        "Я" => "Ia",
+        "ж" => "j",
+        "й" => "i",
+        "х" => "h",
+        "ц" => "c",
+        "щ" => "sht",
+        "ъ" => "u",
+        "ь" => "i",
+        "ю" => "iu",
+        "я" => "ia"
+      }
+    end
+  end
+end

data/lib/kebab/transliterator/cyrillic.rb ADDED

@@ -0,0 +1,108 @@
+# encoding: utf-8
+module Kebab
+  module Transliterator
+    # Approximations are based on GOST 7.79, System B:
+    # http://en.wikipedia.org/wiki/ISO_9#GOST_7.79
+    class Cyrillic < Base
+      APPROXIMATIONS = {
+        "Ё" => "Yo",
+        "Ѓ" => "G",
+        "Є" => "Ye",
+        "Ї" => "Yi",
+        "Љ" => "L",
+        "Њ" => "N",
+        "Ќ" => "K",
+        "Ў" => "U",
+        "Џ" => "Dh",
+        "А" => "A",
+        "Б" => "B",
+        "В" => "V",
+        "Г" => "G",
+        "Д" => "D",
+        "Е" => "E",
+        "Ж" => "Zh",
+        "З" => "Z",
+        "И" => "I",
+        "Й" => "J",
+        "К" => "K",
+        "Л" => "L",
+        "М" => "M",
+        "Н" => "N",
+        "О" => "O",
+        "П" => "P",
+        "Р" => "R",
+        "С" => "S",
+        "Т" => "T",
+        "У" => "U",
+        "Ф" => "F",
+        "Х" => "X",
+        "Ц" => "Cz",
+        "Ч" => "Ch",
+        "Ш" => "Sh",
+        "Щ" => "Shh",
+        "Ъ" => "",
+        "Ы" => "Y",
+        "Ь" => "",
+        "Э" => "E",
+        "Ю" => "Yu",
+        "Я" => "Ya",
+        "а" => "a",
+        "б" => "b",
+        "в" => "v",
+        "г" => "g",
+        "д" => "d",
+        "е" => "e",
+        "ж" => "zh",
+        "з" => "z",
+        "и" => "i",
+        "й" => "j",
+        "к" => "k",
+        "л" => "l",
+        "м" => "m",
+        "н" => "n",
+        "о" => "o",
+        "п" => "p",
+        "р" => "r",
+        "с" => "s",
+        "т" => "t",
+        "у" => "u",
+        "ф" => "f",
+        "х" => "x",
+        "ц" => "cz",
+        "ч" => "ch",
+        "ш" => "sh",
+        "щ" => "shh",
+        "ъ" => "",
+        "ы" => "y",
+        "ь" => "",
+        "э" => "e",
+        "ю" => "yu",
+        "я" => "ya",
+        "ё" => "yo",
+        "ѓ" => "g",
+        "є" => "ye",
+        "ї" => "yi",
+        "љ" => "l",
+        "њ" => "n",
+        "ќ" => "k",
+        "ў" => "u",
+        "џ" => "dh",
+        "Ѣ" => "Ye",
+        "ѣ" => "ye",
+        "Ѫ" => "O",
+        "ѫ" => "o",
+        "Ѳ" => "Fh",
+        "ѳ" => "fh",
+        "Ѵ" => "Yh",
+        "ѵ" => "yh",
+        "Ґ" => "G",
+        "ґ" => "g",
+      }
+      def transliterate(string)
+        super.gsub(/(c)z([ieyj])/) { "#{$1}#{$2}" }
+      end
+    end
+  end
+end

data/lib/kebab/transliterator/danish.rb ADDED

@@ -0,0 +1,15 @@
+# encoding: utf-8
+module Kebab
+  module Transliterator
+    class Danish < Latin
+      APPROXIMATIONS = {
+        "æ" => "ae",
+        "ø" => "oe",
+        "å" => "aa",
+        "Ø" => "Oe",
+        "Å" => "Aa"
+      }
+    end
+  end
+end

data/lib/kebab/transliterator/german.rb ADDED

@@ -0,0 +1,15 @@
+# encoding: utf-8
+module Kebab
+  module Transliterator
+    class German < Latin
+      APPROXIMATIONS = {
+        "ä" => "ae",
+        "ö" => "oe",
+        "ü" => "ue",
+        "Ä" => "Ae",
+        "Ö" => "Oe",
+        "Ü" => "Ue"
+      }
+    end
+  end
+end

data/lib/kebab/transliterator/greek.rb ADDED

@@ -0,0 +1,77 @@
+# encoding: utf-8
+module Kebab
+  module Transliterator
+    class Greek < Base
+      APPROXIMATIONS = {
+        "Α" => "A",
+        "Ά" => "A",
+        "α" => "a",
+        "ά" => "a",
+        "Β" => "V",
+        "β" => "v",
+        "Γ" => "G",
+        "γ" => "g",
+        "Δ" => "D",
+        "δ" => "d",
+        "Ε" => "E",
+        "Έ" => "E",
+        "ε" => "e",
+        "έ" => "e",
+        "Ζ" => "Z",
+        "ζ" => "z",
+        "Η" => "I",
+        "Ή" => "i",
+        "η" => "i",
+        "ή" => "i",
+        "Θ" => "TH",
+        "θ" => "th",
+        "Ι" => "I",
+        "Ί" => "Ι",
+        "Î" => "I",
+        "ι" => "i",
+        "ί" => "i",
+        "ϊ" => "i",
+        "ΐ" => "i",
+        "Κ" => "K",
+        "κ" => "k",
+        "Λ" => "L",
+        "λ" => "l",
+        "Μ" => "M",
+        "μ" => "m",
+        "Ν" => "N",
+        "ν" => "n",
+        "Ξ" => "KS",
+        "ξ" => "ks",
+        "Ο" => "O",
+        "Ό" => "O",
+        "ο" => "o",
+        "ό" => "o",
+        "Π" => "P",
+        "π" => "p",
+        "Ρ" => "R",
+        "ρ" => "r",
+        "Σ" => "S",
+        "σ" => "s",
+        "ς" => "s",
+        "Τ" => "T",
+        "τ" => "t",
+        "Υ" => "Y",
+        "Ύ" => "Y",
+        "υ" => "y",
+        "ύ" => "y",
+        "ϋ" => "y",
+        "ΰ" => "y",
+        "Φ" => "F",
+        "φ" => "f",
+        "Χ" => "X",
+        "χ" => "x",
+        "Ψ" => "PS",
+        "ψ" => "ps",
+        "Ω" => "O",
+        "Ώ" => "O",
+        "ω" => "o",
+        "ώ" => "o"
+      }
+    end
+  end
+end

data/lib/kebab/transliterator/hindi.rb ADDED

@@ -0,0 +1,137 @@
+# encoding: utf-8
+module Kebab
+  module Transliterator
+    class Hindi < Base
+      APPROXIMATIONS = {
+        "ऀ" => "n",
+        "ँ" => "n",
+        "ं" => "n",
+        "ः" => "h",
+        "ऄ" => "a",
+        "अ" => "a",
+        "आ" => "aa",
+        "इ" => "i",
+        "ई" => "ii",
+        "उ" => "u",
+        "ऊ" => "uu",
+        "ऋ" => "ri",
+        "ऌ" => "lri",
+        "ऍ" => "e",
+        "ऎ" => "e",
+        "ए" => "e",
+        "ऐ" => "ei",
+        "ऑ" => "o",
+        "ऒ" => "o",
+        "ओ" => "o",
+        "औ" => "ou",
+        "क" => "k",
+        "ख" => "kh",
+        "ग" => "g",
+        "घ" => "gh",
+        "ङ" => "d",
+        "च" => "ch",
+        "छ" => "chh",
+        "ज" => "j",
+        "झ" => "jh",
+        "ञ" => "ny",
+        "ट" => "tt",
+        "ठ" => "tth",
+        "ड" => "dd",
+        "ढ" => "ddh",
+        "ण" => "nn",
+        "त" => "t",
+        "थ" => "th",
+        "द" => "d",
+        "ध" => "dh",
+        "न" => "n",
+        "ऩ" => "nnn",
+        "प" => "p",
+        "फ" => "ph",
+        "ब" => "b",
+        "भ" => "bh",
+        "म" => "m",
+        "य" => "y",
+        "र" => "r",
+        "ऱ" => "rr",
+        "ल" => "l",
+        "ळ" => "ll",
+        "ऴ" => "ll",
+        "व" => "v",
+        "श" => "sh",
+        "ष" => "ss",
+        "स" => "s",
+        "ह" => "h",
+        "ऺ" => "oe",
+        "ऻ" => "ooe",
+        "़" => "",
+        "ऽ" => "-",
+        "ा" => "aa",
+        "ि" => "i",
+        "ी" => "ii",
+        "ु" => "u",
+        "ू" => "uu",
+        "ृ" => "r",
+        "ॄ" => "rr",
+        "ॅ" => "e",
+        "ॆ" => "e",
+        "े" => "e",
+        "ै" => "ai",
+        "ॉ" => "o",
+        "ॊ" => "o",
+        "ो" => "o",
+        "ौ" => "au",
+        "्" => "",
+        "ॎ" => "e",
+        "ॏ" => "aw",
+        "ॐ" => "om",
+        "॑" => "",
+        "॒" => "_",
+        "॓" => "",
+        "॔" => "",
+        "ॕ" => "ee",
+        "ॖ" => "ue",
+        "ॗ" => "uue",
+        "क़" => "q",
+        "ख़" => "khh",
+        "ग़" => "ghh",
+        "ज़" => "za",
+        "ड़" => "dddh",
+        "ढ़" => "rh",
+        "फ़" => "f",
+        "य़" => "yy",
+        "ॠ" => "rri",
+        "ॡ" => "lr",
+        "ॢ" => "l",
+        "ॣ" => "l",
+        "।" => ".",
+        "॥" => "..",
+        "०" => "0",
+        "१" => "1",
+        "२" => "2",
+        "३" => "3",
+        "४" => "4",
+        "५" => "5",
+        "६" => "6",
+        "७" => "7",
+        "८" => "8",
+        "९" => "9",
+        "॰" => ".",
+        "ॱ" => ".",
+        "ॲ" => "a",
+        "ॳ" => "oe",
+        "ॴ" => "ooe",
+        "ॵ" => "aw",
+        "ॶ" => "ue",
+        "ॷ" => "uue",
+        "ॸ" => "dd",
+        "ॹ" => "zh",
+        "ॺ" => "y",
+        "ॻ" => "gg",
+        "ॼ" => "jj",
+        "ॽ" => "?",
+        "ॾ" => "ddd",
+        "ॿ" => "bb"
+      }
+    end
+  end
+end