RubyGems - babosa - Versions diffs - 0.2.2 → 0.3.0 - Mend

babosa 0.2.2 → 0.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (31) hide show

data/.gemtest +0 -0
data/README.md +59 -28
data/Rakefile +14 -8
data/lib/babosa.rb +11 -1
data/lib/babosa/identifier.rb +26 -16
data/lib/babosa/transliterator/base.rb +89 -0
data/lib/babosa/transliterator/bulgarian.rb +27 -0
data/lib/babosa/transliterator/cyrillic.rb +111 -0
data/lib/babosa/transliterator/danish.rb +15 -0
data/lib/babosa/transliterator/german.rb +15 -0
data/lib/babosa/transliterator/latin.rb +199 -0
data/lib/babosa/transliterator/russian.rb +22 -0
data/lib/babosa/transliterator/serbian.rb +34 -0
data/lib/babosa/transliterator/spanish.rb +9 -0
data/lib/babosa/transliterator/ukranian.rb +11 -0
data/lib/babosa/utf8/dumb_proxy.rb +1 -0
data/lib/babosa/version.rb +1 -1
data/spec/babosa_spec.rb +131 -0
data/spec/spec_helper.rb +33 -0
data/spec/transliterators/base_spec.rb +16 -0
data/spec/transliterators/bulgarian_spec.rb +20 -0
data/spec/transliterators/danish_spec.rb +17 -0
data/spec/transliterators/german_spec.rb +17 -0
data/spec/transliterators/russian_spec.rb +9 -0
data/spec/transliterators/serbian_spec.rb +25 -0
data/spec/transliterators/spanish_spec.rb +13 -0
data/spec/transliterators/ukranian_spec.rb +9 -0
data/spec/utf8_proxy_spec.rb +48 -0
metadata +63 -19
data/lib/babosa/characters.rb +0 -80
data/test/babosa_test.rb +0 -198

data/lib/babosa/transliterator/danish.rb ADDED

@@ -0,0 +1,15 @@
+# encoding: utf-8
+module Babosa
+  module Transliterator
+    class Danish < Latin
+      APPROXIMATIONS = {
+        "æ" => "ae",
+        "ø" => "oe",
+        "å" => "aa",
+        "Ø" => "Oe",
+        "Å" => "Aa"
+      }
+    end
+  end
+end

data/lib/babosa/transliterator/german.rb ADDED

@@ -0,0 +1,15 @@
+# encoding: utf-8
+module Babosa
+  module Transliterator
+    class German < Latin
+      APPROXIMATIONS = {
+        "ä" => "ae",
+        "ö" => "oe",
+        "ü" => "ue",
+        "Ä" => "Ae",
+        "Ö" => "Oe",
+        "Ü" => "Ue"
+      }
+    end
+  end
+end

data/lib/babosa/transliterator/latin.rb ADDED

@@ -0,0 +1,199 @@
+# encoding: utf-8
+module Babosa
+  module Transliterator
+    class Latin < Base
+      APPROXIMATIONS = {
+        "À" => "A",
+        "Á" => "A",
+        "Â" => "A",
+        "Ã" => "A",
+        "Ä" => "A",
+        "Å" => "A",
+        "Æ" => "Ae",
+        "Ç" => "C",
+        "È" => "E",
+        "É" => "E",
+        "Ê" => "E",
+        "Ë" => "E",
+        "Ì" => "I",
+        "Í" => "I",
+        "Î" => "I",
+        "Ï" => "I",
+        "Ð" => "D",
+        "Ñ" => "N",
+        "Ò" => "O",
+        "Ó" => "O",
+        "Ô" => "O",
+        "Õ" => "O",
+        "Ö" => "O",
+        "Ø" => "O",
+        "Ù" => "U",
+        "Ú" => "U",
+        "Û" => "U",
+        "Ü" => "U",
+        "Ý" => "Y",
+        "Þ" => "Th",
+        "ß" => "ss",
+        "à" => "a" ,
+        "á" => "a",
+        "â" => "a",
+        "ã" => "a",
+        "ä" => "a",
+        "å" => "a",
+        "æ" => "ae",
+        "ç" => "c" ,
+        "è" => "e",
+        "é" => "e",
+        "ê" => "e",
+        "ë" => "e",
+        "ì" => "i",
+        "í" => "i",
+        "î" => "i",
+        "ï" => "i",
+        "ð" => "d",
+        "ñ" => "n",
+        "ò" => "o",
+        "ó" => "o",
+        "ô" => "o",
+        "õ" => "o",
+        "ö" => "o",
+        "ø" => "o",
+        "ù" => "u",
+        "ú" => "u",
+        "û" => "u",
+        "ü" => "u",
+        "ý" => "y",
+        "þ" => "th",
+        "ÿ" => "y",
+        "Ā" => "A",
+        "Ă" => "A",
+        "Ą" => "A",
+        "Ć" => "C",
+        "Ĉ" => "C",
+        "Ċ" => "C",
+        "Č" => "C",
+        "Ď" => "D",
+        "Đ" => "D",
+        "Ē" => "E",
+        "Ĕ" => "E",
+        "Ė" => "E",
+        "Ę" => "E",
+        "Ě" => "E",
+        "Ĝ" => "G",
+        "Ğ" => "G",
+        "Ġ" => "G",
+        "Ģ" => "G",
+        "Ĥ" => "H",
+        "Ħ" => "H",
+        "Ĩ" => "I",
+        "Ī" => "I",
+        "Ĭ" => "I",
+        "Į" => "I",
+        "İ" => "I",
+        "Ĳ" => "Ij",
+        "Ĵ" => "J",
+        "Ķ" => "K",
+        "Ĺ" => "L",
+        "Ļ" => "L",
+        "Ľ" => "L",
+        "Ŀ" => "L",
+        "Ł" => "L",
+        "Ń" => "N",
+        "Ņ" => "N",
+        "Ň" => "N",
+        "Ŋ" => "Ng",
+        "Ō" => "O",
+        "Ŏ" => "O",
+        "Ő" => "O",
+        "Œ" => "OE",
+        "Ŕ" => "R",
+        "Ŗ" => "R",
+        "Ř" => "R",
+        "Ś" => "S",
+        "Ŝ" => "S",
+        "Ş" => "S",
+        "Š" => "S",
+        "Ţ" => "T",
+        "Ť" => "T",
+        "Ŧ" => "T",
+        "Ũ" => "U",
+        "Ū" => "U",
+        "Ŭ" => "U",
+        "Ů" => "U",
+        "Ű" => "U",
+        "Ų" => "U",
+        "Ŵ" => "W",
+        "Ŷ" => "Y",
+        "Ÿ" => "Y",
+        "Ź" => "Z",
+        "Ż" => "Z",
+        "Ž" => "Z",
+        "ā" => "a",
+        "ă" => "a",
+        "ą" => "a",
+        "ć" => "c",
+        "ĉ" => "c",
+        "ċ" => "c",
+        "č" => "c",
+        "ď" => "d",
+        "đ" => "d",
+        "ē" => "e",
+        "ĕ" => "e",
+        "ė" => "e",
+        "ę" => "e",
+        "ě" => "e",
+        "ĝ" => "g",
+        "ğ" => "g",
+        "ġ" => "g",
+        "ģ" => "g",
+        "ĥ" => "h",
+        "ħ" => "h",
+        "ĩ" => "i",
+        "ī" => "i",
+        "ĭ" => "i",
+        "į" => "i",
+        "ı" => "i",
+        "ĳ" => "ij",
+        "ĵ" => "j",
+        "ķ" => "k",
+        "ĸ" => "k",
+        "ĺ" => "l",
+        "ļ" => "l",
+        "ľ" => "l",
+        "ŀ" => "l",
+        "ł" => "l",
+        "ń" => "n",
+        "ņ" => "n",
+        "ň" => "n",
+        "ŉ" => "n",
+        "ŋ" => "ng",
+        "ō" => "o",
+        "ŏ" => "o",
+        "ő" => "o",
+        "œ" => "oe",
+        "ŕ" => "r",
+        "ŗ" => "r",
+        "ř" => "r",
+        "ś" => "s",
+        "ŝ" => "s",
+        "ş" => "s",
+        "š" => "s",
+        "ţ" => "t",
+        "ť" => "t",
+        "ŧ" => "t",
+        "ũ" => "u",
+        "ū" => "u",
+        "ŭ" => "u",
+        "ů" => "u",
+        "ű" => "u",
+        "ų" => "u",
+        "ŵ" => "w",
+        "ŷ" => "y",
+        "ž" => "z",
+        "ź" => "z",
+        "ż" => "z"
+      }
+    end
+  end
+end

data/lib/babosa/transliterator/russian.rb ADDED

@@ -0,0 +1,22 @@
+# encoding: utf-8
+module Babosa
+  module Transliterator
+    class Russian < Cyrillic
+      APPROXIMATIONS = {
+        "Й" => "I",
+        "М" => "M",
+        "Х" => "H",
+        "Ц" => "Ts",
+        "Ш" => "Sh",
+        "Щ" => "Sch",
+        "Ю" => "U",
+        "Я" => "Ya",
+        "й" => "i",
+        "х" => "h",
+        "ц" => "ts",
+        "щ" => "sch",
+        "ю" => "u"
+      }
+    end
+  end
+end

data/lib/babosa/transliterator/serbian.rb ADDED

@@ -0,0 +1,34 @@
+# encoding: utf-8
+module Babosa
+  module Transliterator
+    class Serbian < Latin
+      APPROXIMATIONS = Cyrillic.const_get(:APPROXIMATIONS).merge({
+        "Ð" => "Dj",
+        "Č" => "Ch",
+        "Š" => "Sh",
+        "č" => "ch",
+        "đ" => "dj",
+        "š" => "sh",
+        "Ћ" => "C",
+        "Ц" => "C",
+        "Ч" => "Ch",
+        "Ђ" => "Dj",
+        "Џ" => "Dz",
+        "Х" => "H",
+        "Ј" => "J",
+        "Љ" => "Lj",
+        "Њ" => "Nj",
+        "ц" => "c",
+        "ћ" => "c",
+        "ч" => "ch",
+        "ђ" => "dj",
+        "џ" => "dz",
+        "х" => "h",
+        "ј" => "j",
+        "љ" => "lj",
+        "њ" => "nj"
+      })
+    end
+  end
+end

data/lib/babosa/transliterator/spanish.rb ADDED

@@ -0,0 +1,9 @@
+# encoding: utf-8
+module Babosa
+  module Transliterator
+    class Spanish < Latin
+      APPROXIMATIONS = {"ñ" => "ni", "Ñ" => "Ni"}
+    end
+  end
+end

data/lib/babosa/transliterator/ukranian.rb ADDED

@@ -0,0 +1,11 @@
+# encoding: utf-8
+module Babosa
+  module Transliterator
+    class Ukranian < Cyrillic
+      APPROXIMATIONS = {
+        "И" => "Y",
+        "и" => "y",
+      }
+    end
+  end
+end

data/lib/babosa/utf8/dumb_proxy.rb CHANGED

@@ -1,4 +1,5 @@
 require File.expand_path("../mappings", __FILE__)
 module Babosa
   module UTF8

data/lib/babosa/version.rb CHANGED

@@ -1,5 +1,5 @@
 module Babosa
   module Version
-    STRING = "0.2.2"
+    STRING = "0.3.0"
   end
 end

data/spec/babosa_spec.rb ADDED

@@ -0,0 +1,131 @@
+# encoding: utf-8
+require File.expand_path("../spec_helper", __FILE__)
+describe Babosa::Identifier do
+  it "should respond_to :empty?" do
+    "".to_slug.should respond_to(:empty?)
+  end
+  %w[approximate_ascii clean downcase word_chars normalize to_ascii upcase with_dashes].each do |method|
+    describe "##{method}" do
+      it "should work with invalid UTF-8 strings" do
+        expect {"\x93abc".to_slug.send method}.not_to raise_exception
+      end
+    end
+  end
+  describe "#word_chars" do
+    it "word_chars! should leave only letters and spaces" do
+      string = "a*$%^$@!@b$%^&*()*!c"
+      string.to_slug.word_chars.should match(/[a-z ]*/i)
+    end
+  end
+  describe "#transliterate" do
+    it "should transliterate to ascii" do
+      slug = (0xC0..0x17E).to_a.each do |codepoint|
+        ss = [codepoint].pack("U*").to_slug
+        ss.approximate_ascii.should match(/[\x0-\x7f]/)
+      end
+    end
+    it "should transliterate uncomposed utf8" do
+      string = [117, 776].pack("U*") # "ü" as ASCII "u" plus COMBINING DIAERESIS
+      string.to_slug.approximate_ascii.should eql("u")
+    end
+  end
+  describe "#downcase" do
+    it "should lowercase strings" do
+      "FELIZ AÑO".to_slug.downcase.should eql("feliz año")
+    end
+  end
+  describe "#upcase" do
+    it "should uppercase strings" do
+      "feliz año".to_slug.upcase.should eql("FELIZ AÑO")
+    end
+  end
+  describe "#normalize" do
+    it "should replace whitespace with dashes" do
+      "a b".to_slug.clean.normalize.should eql("a-b")
+    end
+    it "should replace multiple spaces with 1 dash" do
+      "a    b".to_slug.clean.normalize.should eql("a-b")
+    end
+    it "should replace multiple dashes with 1 dash" do
+      "male - female".to_slug.normalize.should eql("male-female")
+    end
+    it "should strip trailing space" do
+      "ab ".to_slug.normalize.should eql("ab")
+    end
+    it "should strip leading space" do
+      " ab".to_slug.normalize.should eql("ab")
+    end
+    it "should strip trailing slashes" do
+      "ab-".to_slug.normalize.should eql("ab")
+    end
+    it "should strip leading slashes" do
+      "-ab".to_slug.normalize.should eql("ab")
+    end
+    it "should not modify valid name strings" do
+      "a-b-c-d".to_slug.normalize.should eql("a-b-c-d")
+    end
+    it "should work with non roman chars" do
+      "検 索".to_slug.normalize.should eql("検-索")
+    end
+    context "with to_ascii option" do
+      it "should approximate and strip non ascii" do
+        ss = "カタカナ: katakana is über cool".to_slug
+        ss.normalize(:to_ascii => true).should eql("katakana-is-uber-cool")
+      end
+    end
+  end
+  describe "#truncate_bytes" do
+    it "should by byte length" do
+      "üa".to_slug.truncate_bytes(2).should eql("ü")
+      "üa".to_slug.truncate_bytes(1).should eql("")
+      "üa".to_slug.truncate_bytes(100).should eql("üa")
+      "üéøá".to_slug.truncate_bytes(3).should eql("ü")
+    end
+  end
+  describe "#truncate" do
+    it "should truncate by char length" do
+      "üa".to_slug.truncate(2).should eql("üa")
+      "üa".to_slug.truncate(1).should eql("ü")
+      "üa".to_slug.truncate(100).should eql("üa")
+    end
+  end
+  describe "#with_dashes" do
+    it "should not change byte size when replacing spaces" do
+      "".to_slug.with_dashes.bytesize.should eql(0)
+      " ".to_slug.with_dashes.bytesize.should eql(1)
+      "-abc-".to_slug.with_dashes.bytesize.should eql(5)
+      " abc ".to_slug.with_dashes.bytesize.should eql(5)
+      " a  bc ".to_slug.with_dashes.bytesize.should eql(7)
+    end
+  end
+  describe "#to_ruby_method" do
+    it "should get a string suitable for use as a ruby method" do
+      "¿¿¿hello... world???".to_slug.to_ruby_method.should eql("hello_world?")
+      "カタカナ: katakana is über cool".to_slug.to_ruby_method.should eql("katakana_is_uber_cool")
+      "カタカナ: katakana is über cool!".to_slug.to_ruby_method.should eql("katakana_is_uber_cool!")
+      "カタカナ: katakana is über cool".to_slug.to_ruby_method(false).should eql("katakana_is_uber_cool")
+    end
+  end
+end