RubyGems - byk - Versions diffs - 0.3.0 → 0.4.0 - Mend

byk 0.3.0 → 0.4.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 3ba019cfc4eecb9208d5c6aaac397820ab8cf78d
-  data.tar.gz: 7b49cc79f1385c443b3120bbc9e92a3ade338736
+  metadata.gz: 2fb4e839b91bf3348e5c59e0e52b97bbbaec43de
+  data.tar.gz: 1a5d496e1fe684cba330eed517c3b8de5ad573a0
 SHA512:
-  metadata.gz: 5f62f7e005890c0a39538aaa955d00362793539e8f499a8ea1c3922171209e75afd2ebe496162e28635858c47b77a8ad15fb82a7b5e693c5e2a7b357c578157b
-  data.tar.gz: 1e8ff0ee9b3897780e02a226d3df650f5be408242d6df8919bef0ff75c15bf513605726bdf3f543e3d179e4ff47e70d37466860b338c6ad14367dbb061bf5c4d
+  metadata.gz: 9fc2e29e20dad1e0c517afd3c35d60340f256ce44bcda71a9e2fb344be4b685c2fa3b85350dd347e890143c6f9a84a94896eec9df0bfb8ec9b7be8811907053f
+  data.tar.gz: c81f02b4075cdc5b82b3f17f47fb4ea74dbcfa29bbe466731c685ec5a7b3d1c54b329075eb8c2d1731b76f03b9bf9b24646ea3aeff88f8ab17577297d0bae960

data/CHANGELOG.md ADDED

@@ -0,0 +1,19 @@
+# Changelog
+### Byk 0.4.0 (2015-04-17)
+* Performance tuning and refactoring, ~10% speedup
+* Updated benchmark
+* Introduced changelog
+### Byk 0.3.0 (2015-04-16)
+* MRI 1.9.2 support
+### Byk 0.2.0 (2015-04-15)
+* MRI 1.9.3 support
+### Byk 0.1.0 (2015-04-15)
+* First release

data/README.md CHANGED

@@ -1,13 +1,16 @@
 Byk
 ===
-Fast transliteration of Serbian Cyrillic into Latin.
-![byk](https://cloud.githubusercontent.com/assets/626128/7155207/07545960-e35d-11e4-804e-5fdee70a3e30.png)
+[![Gem Version](https://badge.fury.io/rb/byk.svg)](https://rubygems.org/gems/byk)
+[![Build Status](https://travis-ci.org/topalovic/byk.svg?branch=master)](https://travis-ci.org/topalovic/byk)
-Inspired by @dejan's
+Ruby gem for fast transliteration of Serbian Cyrillic into Latin
+<br />
+<sub>Inspired by @dejan's
 [nice little gem](https://github.com/dejan/srbovanje),
-this one comes with a C-optimized twist.
+this one comes with a C-optimized twist</sub>
+![byk](https://cloud.githubusercontent.com/assets/626128/7155207/07545960-e35d-11e4-804e-5fdee70a3e30.png)
 ## Installation
@@ -61,8 +64,8 @@ Note that these methods take into account the
 [two-letter capitalization rules](http://sr.wikipedia.org/wiki/Gajica#Abeceda):
 ```ruby
-"ЉИЉА Љиљановић".to_latin       # => "LJILJA Ljiljanović"
-"ĐORĐE Đorđević".to_ascii_latin # => "DJORDJE Djordjevic"
+"ЉИЉА Љиљановић".to_latin        # => "LJILJA Ljiljanović"
+"ĐORĐE Đorđević".to_ascii_latin  # => "DJORDJE Djordjevic"
 ```
@@ -74,24 +77,21 @@ my hardware. YMMV of course.
 ## Raison d'être
-This kind of speed-up might prove worthwhile for massive
-transliteration projects (e.g. sites supporting dual script
-l10n). Remember, `Benchmark` is your friend.
+This kind of speed-up might be worthwhile for massive localization
+projects, e.g. sites supporting dual script content. Remember,
+`Benchmark` is your friend.
-I found it to be a straightforward little problem, fit for this kind
-of tight optimization&hellip; which also gave me an excuse to play
+I found transliteration to be a straightforward little problem that
+lends itself well to optimization. It also gave me an excuse to play
 with Ruby extensions, so there :smile_cat:
 ## Compatibility
-Byk is supported under MRI Ruby 1.9.2, 1.9.3, 2.0, 2.1 and 2.2.
-Earlier versions of MRI are untested (yet).
-## Status
-[![Build Status](https://travis-ci.org/topalovic/byk.svg?branch=master)](https://travis-ci.org/topalovic/byk)
+Byk is supported under MRI Ruby >= 1.9.2. I don't plan to support
+1.8.7 or older due to substantial C API changes between 1.8 and
+1.9. It doesn't build under Rubinius currently, but I intend to
+support it in future releases.
 ## License

data/ext/byk/byk.c CHANGED

@@ -17,9 +17,9 @@ rb_check_arity(int argc, int min, int max)
 #define STR_ENC_GET(str) rb_enc_from_index(ENCODING_GET(str))
-#define STR_CAT_COND_ASCII(force_ascii, dest, chr, ascii_chr, len, enc) \
-    force_ascii ? rb_enc_str_buf_cat(dest, chr, len, enc)               \
-                : str_cat_char(dest, ascii_chr, enc)
+#define STR_CAT_COND_ASCII(ascii, dest, chr, ascii_chr, len, enc) \
+    ascii ? rb_enc_str_buf_cat(dest, chr, len, enc)               \
+          : str_cat_char(dest, ascii_chr, enc)
 enum {
     LAT_CAP_TJ=262,
@@ -106,7 +106,6 @@ is_upper_case(unsigned int c)
             || c == LAT_CAP_ZH);
 }
 static void
 str_cat_char(VALUE str, unsigned int c, rb_encoding *enc)
 {
@@ -123,8 +122,10 @@ str_to_latin(int argc, VALUE *argv, VALUE str, int ascii, int bang)
     long dest_len;
     char *pos, *end;
     rb_encoding *enc;
+    int len, next_len;
+    int seen_upper = 0;
+    int force_upper = 0;
     unsigned int codepoint = 0;
-    unsigned int prev_codepoint = 0;
     unsigned int next_codepoint = 0;
     rb_check_arity(argc, 0, 1);
@@ -134,27 +135,21 @@ str_to_latin(int argc, VALUE *argv, VALUE str, int ascii, int bang)
     end = RSTRING_END(str);
     enc = STR_ENC_GET(str);
-    dest_len = RSTRING_LEN(str) + 30; /* TODO len + margin */
+    dest_len = RSTRING_LEN(str) + 30;
     dest = rb_str_buf_new(dest_len);
     rb_enc_associate(dest, enc);
-    while (pos < end) {
-        int len;
-        int force_upper = 0;
-        prev_codepoint = codepoint;
-        codepoint = rb_enc_codepoint_len(pos, end, &len, enc);
-        next_codepoint = 0;
+    codepoint = rb_enc_codepoint_len(pos, end, &len, enc);
-        force_upper = prev_codepoint && is_upper_case(prev_codepoint);
-        if (!force_upper && (pos + len < end)) {
-            /* TODO Trim down to one rb_enc_codepoint call per iter. */
-            next_codepoint = rb_enc_codepoint(pos + len, end, enc);
-            force_upper = is_upper_case(next_codepoint);
+    while (pos < end) {
+        if (pos + len < end) {
+            next_codepoint = rb_enc_codepoint_len(pos + len, end, &next_len, enc);
         }
-        /* Latin -> "ASCII latin" conversion */
+        force_upper = seen_upper || is_upper_case(next_codepoint);
+        seen_upper = is_upper_case(codepoint);
+        /* Latin -> "ASCII Latin" conversion */
         if (ascii && codepoint >= LAT_CAP_TJ && codepoint <= LAT_ZH) {
             switch (codepoint) {
             case LAT_TJ:
@@ -174,107 +169,109 @@ str_to_latin(int argc, VALUE *argv, VALUE str, int ascii, int bang)
             default:
                 rb_enc_str_buf_cat(dest, pos, len, enc);
             }
-            pos += len;
-            continue;
         }
-        /* Short-circuit for non-cyrillic codepoints */
-        if (codepoint < CYR_CAP_DJ || codepoint > CYR_DZ) {
+        /* Non-Cyrillic codepoints */
+        else if (codepoint < CYR_CAP_DJ || codepoint > CYR_DZ) {
             rb_enc_str_buf_cat(dest, pos, len, enc);
-            pos += len;
-            continue;
         }
-        /* Cyrillic -> latin conversion */
-        switch (codepoint) {
-        case CYR_CAP_J:  rb_enc_str_buf_cat(dest, "J",  1, enc); break;
-        case CYR_CAP_A:  rb_enc_str_buf_cat(dest, "A",  1, enc); break;
-        case CYR_CAP_B:  rb_enc_str_buf_cat(dest, "B",  1, enc); break;
-        case CYR_CAP_V:  rb_enc_str_buf_cat(dest, "V",  1, enc); break;
-        case CYR_CAP_G:  rb_enc_str_buf_cat(dest, "G",  1, enc); break;
-        case CYR_CAP_D:  rb_enc_str_buf_cat(dest, "D",  1, enc); break;
-        case CYR_CAP_E:  rb_enc_str_buf_cat(dest, "E",  1, enc); break;
-        case CYR_CAP_Z:  rb_enc_str_buf_cat(dest, "Z",  1, enc); break;
-        case CYR_CAP_I:  rb_enc_str_buf_cat(dest, "I",  1, enc); break;
-        case CYR_CAP_K:  rb_enc_str_buf_cat(dest, "K",  1, enc); break;
-        case CYR_CAP_L:  rb_enc_str_buf_cat(dest, "L",  1, enc); break;
-        case CYR_CAP_M:  rb_enc_str_buf_cat(dest, "M",  1, enc); break;
-        case CYR_CAP_N:  rb_enc_str_buf_cat(dest, "N",  1, enc); break;
-        case CYR_CAP_O:  rb_enc_str_buf_cat(dest, "O",  1, enc); break;
-        case CYR_CAP_P:  rb_enc_str_buf_cat(dest, "P",  1, enc); break;
-        case CYR_CAP_R:  rb_enc_str_buf_cat(dest, "R",  1, enc); break;
-        case CYR_CAP_S:  rb_enc_str_buf_cat(dest, "S",  1, enc); break;
-        case CYR_CAP_T:  rb_enc_str_buf_cat(dest, "T",  1, enc); break;
-        case CYR_CAP_U:  rb_enc_str_buf_cat(dest, "U",  1, enc); break;
-        case CYR_CAP_F:  rb_enc_str_buf_cat(dest, "F",  1, enc); break;
-        case CYR_CAP_H:  rb_enc_str_buf_cat(dest, "H",  1, enc); break;
-        case CYR_CAP_C:  rb_enc_str_buf_cat(dest, "C",  1, enc); break;
-        case CYR_A:      rb_enc_str_buf_cat(dest, "a",  1, enc); break;
-        case CYR_B:      rb_enc_str_buf_cat(dest, "b",  1, enc); break;
-        case CYR_V:      rb_enc_str_buf_cat(dest, "v",  1, enc); break;
-        case CYR_G:      rb_enc_str_buf_cat(dest, "g",  1, enc); break;
-        case CYR_D:      rb_enc_str_buf_cat(dest, "d",  1, enc); break;
-        case CYR_E:      rb_enc_str_buf_cat(dest, "e",  1, enc); break;
-        case CYR_Z:      rb_enc_str_buf_cat(dest, "z",  1, enc); break;
-        case CYR_I:      rb_enc_str_buf_cat(dest, "i",  1, enc); break;
-        case CYR_K:      rb_enc_str_buf_cat(dest, "k",  1, enc); break;
-        case CYR_L:      rb_enc_str_buf_cat(dest, "l",  1, enc); break;
-        case CYR_M:      rb_enc_str_buf_cat(dest, "m",  1, enc); break;
-        case CYR_N:      rb_enc_str_buf_cat(dest, "n",  1, enc); break;
-        case CYR_O:      rb_enc_str_buf_cat(dest, "o",  1, enc); break;
-        case CYR_P:      rb_enc_str_buf_cat(dest, "p",  1, enc); break;
-        case CYR_R:      rb_enc_str_buf_cat(dest, "r",  1, enc); break;
-        case CYR_S:      rb_enc_str_buf_cat(dest, "s",  1, enc); break;
-        case CYR_T:      rb_enc_str_buf_cat(dest, "t",  1, enc); break;
-        case CYR_U:      rb_enc_str_buf_cat(dest, "u",  1, enc); break;
-        case CYR_F:      rb_enc_str_buf_cat(dest, "f",  1, enc); break;
-        case CYR_H:      rb_enc_str_buf_cat(dest, "h",  1, enc); break;
-        case CYR_C:      rb_enc_str_buf_cat(dest, "c",  1, enc); break;
-        case CYR_J:      rb_enc_str_buf_cat(dest, "j",  1, enc); break;
-        case CYR_LJ:     rb_enc_str_buf_cat(dest, "lj", 2, enc); break;
-        case CYR_NJ:     rb_enc_str_buf_cat(dest, "nj", 2, enc); break;
-        case CYR_DJ:     STR_CAT_COND_ASCII(ascii, dest, "dj", LAT_DJ, 2, enc); break;
-        case CYR_TJ:     STR_CAT_COND_ASCII(ascii, dest, "c", LAT_TJ, 1, enc); break;
-        case CYR_CH:     STR_CAT_COND_ASCII(ascii, dest, "c", LAT_CH, 1, enc); break;
-        case CYR_ZH:     STR_CAT_COND_ASCII(ascii, dest, "z", LAT_ZH, 1, enc); break;
-        case CYR_SH:     STR_CAT_COND_ASCII(ascii, dest, "s", LAT_SH, 1, enc); break;
-        case CYR_CAP_TJ: STR_CAT_COND_ASCII(ascii, dest, "C", LAT_CAP_TJ, 1, enc); break;
-        case CYR_CAP_CH: STR_CAT_COND_ASCII(ascii, dest, "C", LAT_CAP_CH, 1, enc); break;
-        case CYR_CAP_ZH: STR_CAT_COND_ASCII(ascii, dest, "Z", LAT_CAP_ZH, 1, enc); break;
-        case CYR_CAP_SH: STR_CAT_COND_ASCII(ascii, dest, "S", LAT_CAP_SH, 1, enc); break;
-        /* Several special cases */
-        case CYR_CAP_LJ:
-            rb_enc_str_buf_cat(dest, (force_upper ? "LJ" : "Lj"), 2, enc);
-            break;
-        case CYR_CAP_NJ:
-            rb_enc_str_buf_cat(dest, (force_upper ? "NJ" : "Nj"), 2, enc);
-            break;
-        case CYR_CAP_DJ:
-            STR_CAT_COND_ASCII(ascii, dest, (force_upper ? "DJ" : "Dj"), LAT_CAP_DJ, 2, enc);
-            break;
-        case CYR_CAP_DZ:
-            rb_enc_str_buf_cat(dest, "D", 1, enc);
-            if (force_upper) {
-                STR_CAT_COND_ASCII(ascii, dest, "Z", LAT_CAP_ZH, 1, enc);
-            }
-            else {
+        /* Cyrillic -> Latin conversion */
+        else if (codepoint >= CYR_A) {
+            switch (codepoint) {
+            case CYR_A:      rb_enc_str_buf_cat(dest, "a",  1, enc); break;
+            case CYR_B:      rb_enc_str_buf_cat(dest, "b",  1, enc); break;
+            case CYR_V:      rb_enc_str_buf_cat(dest, "v",  1, enc); break;
+            case CYR_G:      rb_enc_str_buf_cat(dest, "g",  1, enc); break;
+            case CYR_D:      rb_enc_str_buf_cat(dest, "d",  1, enc); break;
+            case CYR_E:      rb_enc_str_buf_cat(dest, "e",  1, enc); break;
+            case CYR_Z:      rb_enc_str_buf_cat(dest, "z",  1, enc); break;
+            case CYR_I:      rb_enc_str_buf_cat(dest, "i",  1, enc); break;
+            case CYR_K:      rb_enc_str_buf_cat(dest, "k",  1, enc); break;
+            case CYR_L:      rb_enc_str_buf_cat(dest, "l",  1, enc); break;
+            case CYR_M:      rb_enc_str_buf_cat(dest, "m",  1, enc); break;
+            case CYR_N:      rb_enc_str_buf_cat(dest, "n",  1, enc); break;
+            case CYR_O:      rb_enc_str_buf_cat(dest, "o",  1, enc); break;
+            case CYR_P:      rb_enc_str_buf_cat(dest, "p",  1, enc); break;
+            case CYR_R:      rb_enc_str_buf_cat(dest, "r",  1, enc); break;
+            case CYR_S:      rb_enc_str_buf_cat(dest, "s",  1, enc); break;
+            case CYR_T:      rb_enc_str_buf_cat(dest, "t",  1, enc); break;
+            case CYR_U:      rb_enc_str_buf_cat(dest, "u",  1, enc); break;
+            case CYR_F:      rb_enc_str_buf_cat(dest, "f",  1, enc); break;
+            case CYR_H:      rb_enc_str_buf_cat(dest, "h",  1, enc); break;
+            case CYR_C:      rb_enc_str_buf_cat(dest, "c",  1, enc); break;
+            case CYR_J:      rb_enc_str_buf_cat(dest, "j",  1, enc); break;
+            case CYR_LJ:     rb_enc_str_buf_cat(dest, "lj", 2, enc); break;
+            case CYR_NJ:     rb_enc_str_buf_cat(dest, "nj", 2, enc); break;
+            case CYR_DJ:     STR_CAT_COND_ASCII(ascii, dest, "dj", LAT_DJ, 2, enc); break;
+            case CYR_TJ:     STR_CAT_COND_ASCII(ascii, dest, "c", LAT_TJ, 1, enc); break;
+            case CYR_CH:     STR_CAT_COND_ASCII(ascii, dest, "c", LAT_CH, 1, enc); break;
+            case CYR_ZH:     STR_CAT_COND_ASCII(ascii, dest, "z", LAT_ZH, 1, enc); break;
+            case CYR_SH:     STR_CAT_COND_ASCII(ascii, dest, "s", LAT_SH, 1, enc); break;
+            case CYR_DZ:
+                rb_enc_str_buf_cat(dest, "d", 1, enc);
                 STR_CAT_COND_ASCII(ascii, dest, "z", LAT_ZH, 1, enc);
+                break;
+            default:
+                rb_enc_str_buf_cat(dest, pos, len, enc);
             }
-            break;
-        case CYR_DZ:
-            rb_enc_str_buf_cat(dest, "d", 1, enc);
-            STR_CAT_COND_ASCII(ascii, dest, "z", LAT_ZH, 1, enc);
-            break;
+        }
-        default:
-            rb_enc_str_buf_cat(dest, pos, len, enc);
+        /* Cyrillic -> Latin conversion, caps */
+        else {
+            switch (codepoint) {
+            case CYR_CAP_J:  rb_enc_str_buf_cat(dest, "J",  1, enc); break;
+            case CYR_CAP_A:  rb_enc_str_buf_cat(dest, "A",  1, enc); break;
+            case CYR_CAP_B:  rb_enc_str_buf_cat(dest, "B",  1, enc); break;
+            case CYR_CAP_V:  rb_enc_str_buf_cat(dest, "V",  1, enc); break;
+            case CYR_CAP_G:  rb_enc_str_buf_cat(dest, "G",  1, enc); break;
+            case CYR_CAP_D:  rb_enc_str_buf_cat(dest, "D",  1, enc); break;
+            case CYR_CAP_E:  rb_enc_str_buf_cat(dest, "E",  1, enc); break;
+            case CYR_CAP_Z:  rb_enc_str_buf_cat(dest, "Z",  1, enc); break;
+            case CYR_CAP_I:  rb_enc_str_buf_cat(dest, "I",  1, enc); break;
+            case CYR_CAP_K:  rb_enc_str_buf_cat(dest, "K",  1, enc); break;
+            case CYR_CAP_L:  rb_enc_str_buf_cat(dest, "L",  1, enc); break;
+            case CYR_CAP_M:  rb_enc_str_buf_cat(dest, "M",  1, enc); break;
+            case CYR_CAP_N:  rb_enc_str_buf_cat(dest, "N",  1, enc); break;
+            case CYR_CAP_O:  rb_enc_str_buf_cat(dest, "O",  1, enc); break;
+            case CYR_CAP_P:  rb_enc_str_buf_cat(dest, "P",  1, enc); break;
+            case CYR_CAP_R:  rb_enc_str_buf_cat(dest, "R",  1, enc); break;
+            case CYR_CAP_S:  rb_enc_str_buf_cat(dest, "S",  1, enc); break;
+            case CYR_CAP_T:  rb_enc_str_buf_cat(dest, "T",  1, enc); break;
+            case CYR_CAP_U:  rb_enc_str_buf_cat(dest, "U",  1, enc); break;
+            case CYR_CAP_F:  rb_enc_str_buf_cat(dest, "F",  1, enc); break;
+            case CYR_CAP_H:  rb_enc_str_buf_cat(dest, "H",  1, enc); break;
+            case CYR_CAP_C:  rb_enc_str_buf_cat(dest, "C",  1, enc); break;
+            case CYR_CAP_TJ: STR_CAT_COND_ASCII(ascii, dest, "C", LAT_CAP_TJ, 1, enc); break;
+            case CYR_CAP_CH: STR_CAT_COND_ASCII(ascii, dest, "C", LAT_CAP_CH, 1, enc); break;
+            case CYR_CAP_ZH: STR_CAT_COND_ASCII(ascii, dest, "Z", LAT_CAP_ZH, 1, enc); break;
+            case CYR_CAP_SH: STR_CAT_COND_ASCII(ascii, dest, "S", LAT_CAP_SH, 1, enc); break;
+            case CYR_CAP_LJ:
+                rb_enc_str_buf_cat(dest, (force_upper ? "LJ" : "Lj"), 2, enc);
+                break;
+            case CYR_CAP_NJ:
+                rb_enc_str_buf_cat(dest, (force_upper ? "NJ" : "Nj"), 2, enc);
+                break;
+            case CYR_CAP_DJ:
+                STR_CAT_COND_ASCII(ascii, dest, (force_upper ? "DJ" : "Dj"), LAT_CAP_DJ, 2, enc);
+                break;
+            case CYR_CAP_DZ:
+                rb_enc_str_buf_cat(dest, "D", 1, enc);
+                if (force_upper) {
+                    STR_CAT_COND_ASCII(ascii, dest, "Z", LAT_CAP_ZH, 1, enc);
+                }
+                else {
+                    STR_CAT_COND_ASCII(ascii, dest, "z", LAT_ZH, 1, enc);
+                }
+                break;
+            default:
+                rb_enc_str_buf_cat(dest, pos, len, enc);
+            }
         }
         pos += len;
+        len = next_len;
+        codepoint = next_codepoint;
+        next_codepoint = 0;
     }
     if (bang) {

data/lib/byk/version.rb CHANGED

@@ -1,3 +1,3 @@
 module Byk
-  VERSION = "0.3.0"
+  VERSION = "0.4.0"
 end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: byk
 version: !ruby/object:Gem::Version
-  version: 0.3.0
+  version: 0.4.0
 platform: ruby
 authors:
 - Nikola Topalović
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2015-04-16 00:00:00.000000000 Z
+date: 2015-04-17 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rake-compiler
@@ -46,6 +46,7 @@ extensions:
 - ext/byk/extconf.rb
 extra_rdoc_files: []
 files:
+- CHANGELOG.md
 - LICENSE
 - README.md
 - ext/byk/byk.c