RubyGems - byk - Versions diffs - 0.4.0 → 1.1.0 - Mend

byk 0.4.0 → 1.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

data/ext/byk/byk.c CHANGED Viewed

@@ -1,314 +1,380 @@
-#include <stdio.h>
 #include <ruby.h>
 #include <ruby/encoding.h>
-#ifndef rb_check_arity
-#define rb_check_arity rb_check_arity
-NORETURN(void rb_error_arity(int, int, int));
+#define STR_ENC_GET(str) rb_enc_from_index(ENCODING_GET(str))
 static inline void
-rb_check_arity(int argc, int min, int max)
+_str_cat_char(VALUE str, unsigned c, rb_encoding *enc)
 {
-    if ((argc < min) || (max != -1 && argc > max))
-	rb_error_arity(argc, min, max);
+    char s[16];
+    int n = rb_enc_codelen(c, enc);
+    rb_enc_mbcput(c, s, enc);
+    rb_str_buf_cat(str, s, n);
 }
-#endif
-#define STR_ENC_GET(str) rb_enc_from_index(ENCODING_GET(str))
-#define STR_CAT_COND_ASCII(ascii, dest, chr, ascii_chr, len, enc) \
-    ascii ? rb_enc_str_buf_cat(dest, chr, len, enc)               \
-          : str_cat_char(dest, ascii_chr, enc)
 enum {
-    LAT_CAP_TJ=262,
-    LAT_TJ,
-    LAT_CAP_CH=268,
-    LAT_CH,
-    LAT_CAP_DJ=272,
-    LAT_DJ,
-    LAT_CAP_SH=352,
-    LAT_SH,
-    LAT_CAP_ZH=381,
-    LAT_ZH,
-    CYR_CAP_DJ=1026,
-    CYR_CAP_J=1032,
-    CYR_CAP_LJ,
-    CYR_CAP_NJ,
-    CYR_CAP_TJ,
-    CYR_CAP_DZ=1039,
-    CYR_CAP_A,
-    CYR_CAP_B,
-    CYR_CAP_V,
-    CYR_CAP_G,
-    CYR_CAP_D,
-    CYR_CAP_E,
-    CYR_CAP_ZH,
-    CYR_CAP_Z,
-    CYR_CAP_I,
-    CYR_CAP_K=1050,
-    CYR_CAP_L,
-    CYR_CAP_M,
-    CYR_CAP_N,
-    CYR_CAP_O,
-    CYR_CAP_P,
-    CYR_CAP_R,
-    CYR_CAP_S,
-    CYR_CAP_T,
-    CYR_CAP_U,
-    CYR_CAP_F,
-    CYR_CAP_H,
-    CYR_CAP_C,
-    CYR_CAP_CH,
-    CYR_CAP_SH,
-    CYR_A=1072,
-    CYR_B,
-    CYR_V,
-    CYR_G,
-    CYR_D,
-    CYR_E,
-    CYR_ZH,
-    CYR_Z,
-    CYR_I,
-    CYR_K=1082,
-    CYR_L,
-    CYR_M,
-    CYR_N,
-    CYR_O,
-    CYR_P,
-    CYR_R,
-    CYR_S,
-    CYR_T,
-    CYR_U,
-    CYR_F,
-    CYR_H,
-    CYR_C,
-    CYR_CH,
-    CYR_SH,
-    CYR_DJ=1106,
-    CYR_J=1112,
-    CYR_LJ,
-    CYR_NJ,
-    CYR_TJ,
-    CYR_DZ=1119
+    LAT_CAP_TJ=262, LAT_TJ, LAT_CAP_CH=268, LAT_CH,
+    LAT_CAP_DJ=272, LAT_DJ, LAT_CAP_SH=352, LAT_SH,
+    LAT_CAP_ZH=381, LAT_ZH, CYR_CAP_DJ=1026, CYR_CAP_J=1032,
+    CYR_CAP_LJ, CYR_CAP_NJ, CYR_CAP_TJ, CYR_CAP_DZ=1039,
+    CYR_CAP_A, CYR_CAP_B, CYR_CAP_V, CYR_CAP_G,
+    CYR_CAP_D, CYR_CAP_E, CYR_CAP_ZH, CYR_CAP_Z,
+    CYR_CAP_I, CYR_CAP_K=1050, CYR_CAP_L, CYR_CAP_M,
+    CYR_CAP_N, CYR_CAP_O, CYR_CAP_P, CYR_CAP_R,
+    CYR_CAP_S, CYR_CAP_T, CYR_CAP_U, CYR_CAP_F,
+    CYR_CAP_H, CYR_CAP_C, CYR_CAP_CH, CYR_CAP_SH,
+    CYR_A=1072, CYR_B, CYR_V, CYR_G, CYR_D,
+    CYR_E, CYR_ZH, CYR_Z, CYR_I, CYR_K=1082,
+    CYR_L, CYR_M, CYR_N, CYR_O, CYR_P,
+    CYR_R, CYR_S, CYR_T, CYR_U, CYR_F,
+    CYR_H, CYR_C, CYR_CH, CYR_SH, CYR_DJ=1106,
+    CYR_J=1112, CYR_LJ, CYR_NJ, CYR_TJ, CYR_DZ=1119
 };
-static inline unsigned int
-is_upper_case(unsigned int c)
+static inline unsigned
+is_cap(unsigned codepoint)
 {
-    return ((c >= 65 && c <= 90)
-            || (c >= CYR_CAP_DJ && c <= CYR_CAP_SH)
-            || c == LAT_CAP_TJ
-            || c == LAT_CAP_CH
-            || c == LAT_CAP_DJ
-            || c == LAT_CAP_SH
-            || c == LAT_CAP_ZH);
+    if (codepoint >= 65 && codepoint <= 90) return 1;
+    if (codepoint >= CYR_CAP_DJ && codepoint <= CYR_CAP_SH) return 1;
+    switch(codepoint) {
+    case LAT_CAP_TJ:
+    case LAT_CAP_CH:
+    case LAT_CAP_DJ:
+    case LAT_CAP_SH:
+    case LAT_CAP_ZH:
+        return 1;
+    default:
+        return 0;
+    }
 }
-static void
-str_cat_char(VALUE str, unsigned int c, rb_encoding *enc)
+static inline unsigned
+is_digraph(unsigned codepoint)
 {
-    char s[16];
-    int n = rb_enc_codelen(c, enc);
-    rb_enc_mbcput(c, s, enc);
-    rb_enc_str_buf_cat(str, s, n, enc);
+    switch(codepoint) {
+    case CYR_LJ:
+    case CYR_NJ:
+    case CYR_DZ:
+    case CYR_CAP_LJ:
+    case CYR_CAP_NJ:
+    case CYR_CAP_DZ:
+        return 1;
+    default:
+        return 0;
+    }
+}
+static unsigned
+digraph_to_cyr(unsigned codepoint, unsigned codepoint2, unsigned capitalize, unsigned *next_out)
+{
+    static unsigned CYR_MAP[] = {
+        CYR_A, CYR_B, CYR_C, CYR_D, CYR_E, CYR_F,
+        CYR_G, CYR_H, CYR_I, CYR_J, CYR_K, CYR_L,
+        CYR_M, CYR_N, CYR_O, CYR_P, 0, CYR_R,
+        CYR_S, CYR_T, CYR_U, CYR_V, 0, 0, 0, CYR_Z
+    };
+    static unsigned CYR_CAPS_MAP[] = {
+        CYR_CAP_A, CYR_CAP_B, CYR_CAP_C, CYR_CAP_D, CYR_CAP_E, CYR_CAP_F,
+        CYR_CAP_G, CYR_CAP_H, CYR_CAP_I, CYR_CAP_J, CYR_CAP_K, CYR_CAP_L,
+        CYR_CAP_M, CYR_CAP_N, CYR_CAP_O, CYR_CAP_P, 0, CYR_CAP_R,
+        CYR_CAP_S, CYR_CAP_T, CYR_CAP_U, CYR_CAP_V, 0, 0, 0, CYR_CAP_Z
+    };
+    if (codepoint2 == LAT_CAP_ZH || codepoint2 == LAT_ZH) {
+        switch (codepoint) {
+        case 'd': return CYR_DZ;
+        case 'D': return CYR_CAP_DZ;
+        }
+    }
+    if (codepoint2 == 'j' || codepoint2 == 'J') {
+        switch (codepoint) {
+        case 'l': return CYR_LJ;
+        case 'n': return CYR_NJ;
+        case 'L': return CYR_CAP_LJ;
+        case 'N': return CYR_CAP_NJ;
+        }
+    }
+    if (codepoint >= 'a' && codepoint <= 'z') return CYR_MAP[codepoint - 'a'];
+    if (codepoint >= 'A' && codepoint <= 'Z') return CYR_CAPS_MAP[codepoint - 'A'];
+    switch (codepoint) {
+    case LAT_CH: return CYR_CH;
+    case LAT_DJ: return CYR_DJ;
+    case LAT_SH: return CYR_SH;
+    case LAT_TJ: return CYR_TJ;
+    case LAT_ZH: return CYR_ZH;
+    case LAT_CAP_CH: return CYR_CAP_CH;
+    case LAT_CAP_DJ: return CYR_CAP_DJ;
+    case LAT_CAP_SH: return CYR_CAP_SH;
+    case LAT_CAP_TJ: return CYR_CAP_TJ;
+    case LAT_CAP_ZH: return CYR_CAP_ZH;
+    }
+    return 0;
+}
+static unsigned
+digraph_to_latin(unsigned codepoint, unsigned codepoint2, unsigned capitalize, unsigned *next_out)
+{
+    static char LAT_MAP[] = {
+        'a', 'b', 'v', 'g', 'd', 'e', 0, 'z', 'i', 0, 'k', 'l',
+        'm', 'n', 'o', 'p', 'r', 's', 't', 'u', 'f', 'h', 'c'
+    };
+    static char LAT_CAPS_MAP[] = {
+        'A', 'B', 'V', 'G', 'D', 'E', 0, 'Z', 'I', 0, 'K', 'L',
+        'M', 'N', 'O', 'P', 'R', 'S', 'T', 'U', 'F', 'H', 'C'
+    };
+    if (codepoint < CYR_CAP_DJ || codepoint > CYR_DZ) return 0;
+    switch (codepoint) {
+    case CYR_ZH: return LAT_ZH;
+    case CYR_CAP_ZH: return LAT_CAP_ZH;
+    }
+    if (codepoint >= CYR_A && codepoint <= CYR_C)
+        return LAT_MAP[codepoint - CYR_A];
+    if (codepoint >= CYR_CAP_A && codepoint <= CYR_CAP_C)
+        return LAT_CAPS_MAP[codepoint - CYR_CAP_A];
+    if (codepoint >= CYR_A) {
+        switch (codepoint) {
+        case CYR_J:  return 'j';
+        case CYR_TJ: return LAT_TJ;
+        case CYR_CH: return LAT_CH;
+        case CYR_SH: return LAT_SH;
+        case CYR_DJ: return LAT_DJ;
+        case CYR_LJ: *next_out = 'j'; return 'l';
+        case CYR_NJ: *next_out = 'j'; return 'n';
+        case CYR_DZ: *next_out = LAT_ZH; return 'd';
+        }
+    }
+    else {
+        switch (codepoint) {
+        case CYR_CAP_J:  return 'J';
+        case CYR_CAP_TJ: return LAT_CAP_TJ;
+        case CYR_CAP_CH: return LAT_CAP_CH;
+        case CYR_CAP_SH: return LAT_CAP_SH;
+        case CYR_CAP_DJ: return LAT_CAP_DJ;
+        case CYR_CAP_LJ: *next_out = (capitalize || is_cap(codepoint2)) ? 'J' : 'j'; return 'L';
+        case CYR_CAP_NJ: *next_out = (capitalize || is_cap(codepoint2)) ? 'J' : 'j'; return 'N';
+        case CYR_CAP_DZ: *next_out = (capitalize || is_cap(codepoint2)) ? LAT_CAP_ZH : LAT_ZH; return 'D';
+        }
+    }
+    return 0;
+}
+static unsigned
+digraph_to_ascii(unsigned codepoint, unsigned codepoint2, unsigned capitalize, unsigned *next_out)
+{
+    switch (codepoint) {
+    case LAT_TJ:
+    case LAT_CH:
+    case CYR_TJ:
+    case CYR_CH: return 'c';
+    case LAT_SH:
+    case CYR_SH: return 's';
+    case LAT_ZH:
+    case CYR_ZH: return 'z';
+    case LAT_DJ:
+    case CYR_DJ: *next_out = 'j'; return 'd';
+    case LAT_CAP_TJ:
+    case LAT_CAP_CH:
+    case CYR_CAP_TJ:
+    case CYR_CAP_CH: return 'C';
+    case LAT_CAP_SH:
+    case CYR_CAP_SH: return 'S';
+    case LAT_CAP_ZH:
+    case CYR_CAP_ZH: return 'Z';
+    case LAT_CAP_DJ:
+    case CYR_CAP_DJ:
+        *next_out = (capitalize || is_cap(codepoint2)) ? 'J' : 'j'; return 'D';
+    case CYR_DZ:
+        *next_out = (capitalize || is_cap(codepoint2)) ? 'Z' : 'z'; return 'd';
+    case CYR_CAP_DZ:
+        *next_out = (capitalize || is_cap(codepoint2)) ? 'Z' : 'z'; return 'D';
+    default:
+        return digraph_to_latin(codepoint, codepoint2, capitalize, next_out);
+    }
 }
 static VALUE
-str_to_latin(int argc, VALUE *argv, VALUE str, int ascii, int bang)
+str_to_srb(VALUE str, int strategy, int bang)
 {
     VALUE dest;
-    long dest_len;
-    char *pos, *end;
     rb_encoding *enc;
     int len, next_len;
-    int seen_upper = 0;
-    int force_upper = 0;
-    unsigned int codepoint = 0;
-    unsigned int next_codepoint = 0;
+    unsigned in, in2, out, out2, seen_cap = 0;
+    char *pos, *end, *seq_start = 0;
-    rb_check_arity(argc, 0, 1);
+    unsigned (*method)(unsigned, unsigned, unsigned, unsigned*);
+    switch(strategy) {
+    case 0:  method = &digraph_to_cyr;   break;
+    case 1:  method = &digraph_to_latin; break;
+    default: method = &digraph_to_ascii;
+    }
+    StringValue(str);
     pos = RSTRING_PTR(str);
     if (!pos || RSTRING_LEN(str) == 0) return str;
     end = RSTRING_END(str);
     enc = STR_ENC_GET(str);
-    dest_len = RSTRING_LEN(str) + 30;
-    dest = rb_str_buf_new(dest_len);
+    dest = rb_str_buf_new(RSTRING_LEN(str) + 30);
     rb_enc_associate(dest, enc);
-    codepoint = rb_enc_codepoint_len(pos, end, &len, enc);
+    in = rb_enc_codepoint_len(pos, end, &len, enc);
     while (pos < end) {
-        if (pos + len < end) {
-            next_codepoint = rb_enc_codepoint_len(pos + len, end, &next_len, enc);
-        }
+        in2 = out2 = 0;
-        force_upper = seen_upper || is_upper_case(next_codepoint);
-        seen_upper = is_upper_case(codepoint);
-        /* Latin -> "ASCII Latin" conversion */
-        if (ascii && codepoint >= LAT_CAP_TJ && codepoint <= LAT_ZH) {
-            switch (codepoint) {
-            case LAT_TJ:
-            case LAT_CH:     rb_enc_str_buf_cat(dest, "c", 1, enc); break;
-            case LAT_DJ:     rb_enc_str_buf_cat(dest, "dj", 2, enc); break;
-            case LAT_SH:     rb_enc_str_buf_cat(dest, "s", 1, enc); break;
-            case LAT_ZH:     rb_enc_str_buf_cat(dest, "z", 1, enc); break;
-            case LAT_CAP_TJ:
-            case LAT_CAP_CH: rb_enc_str_buf_cat(dest, "C", 1, enc); break;
-            case LAT_CAP_SH: rb_enc_str_buf_cat(dest, "S", 1, enc); break;
-            case LAT_CAP_ZH: rb_enc_str_buf_cat(dest, "Z", 1, enc); break;
-            case LAT_CAP_DJ:
-                force_upper ? rb_enc_str_buf_cat(dest, "DJ", 2, enc)
-                            : rb_enc_str_buf_cat(dest, "Dj", 2, enc);
-                break;
-            default:
-                rb_enc_str_buf_cat(dest, pos, len, enc);
-            }
-        }
+        if (pos + len < end)
+            in2 = rb_enc_codepoint_len(pos + len, end, &next_len, enc);
-        /* Non-Cyrillic codepoints */
-        else if (codepoint < CYR_CAP_DJ || codepoint > CYR_DZ) {
-            rb_enc_str_buf_cat(dest, pos, len, enc);
-        }
+        out = (*method)(in, in2, seen_cap, &out2);
-        /* Cyrillic -> Latin conversion */
-        else if (codepoint >= CYR_A) {
-            switch (codepoint) {
-            case CYR_A:      rb_enc_str_buf_cat(dest, "a",  1, enc); break;
-            case CYR_B:      rb_enc_str_buf_cat(dest, "b",  1, enc); break;
-            case CYR_V:      rb_enc_str_buf_cat(dest, "v",  1, enc); break;
-            case CYR_G:      rb_enc_str_buf_cat(dest, "g",  1, enc); break;
-            case CYR_D:      rb_enc_str_buf_cat(dest, "d",  1, enc); break;
-            case CYR_E:      rb_enc_str_buf_cat(dest, "e",  1, enc); break;
-            case CYR_Z:      rb_enc_str_buf_cat(dest, "z",  1, enc); break;
-            case CYR_I:      rb_enc_str_buf_cat(dest, "i",  1, enc); break;
-            case CYR_K:      rb_enc_str_buf_cat(dest, "k",  1, enc); break;
-            case CYR_L:      rb_enc_str_buf_cat(dest, "l",  1, enc); break;
-            case CYR_M:      rb_enc_str_buf_cat(dest, "m",  1, enc); break;
-            case CYR_N:      rb_enc_str_buf_cat(dest, "n",  1, enc); break;
-            case CYR_O:      rb_enc_str_buf_cat(dest, "o",  1, enc); break;
-            case CYR_P:      rb_enc_str_buf_cat(dest, "p",  1, enc); break;
-            case CYR_R:      rb_enc_str_buf_cat(dest, "r",  1, enc); break;
-            case CYR_S:      rb_enc_str_buf_cat(dest, "s",  1, enc); break;
-            case CYR_T:      rb_enc_str_buf_cat(dest, "t",  1, enc); break;
-            case CYR_U:      rb_enc_str_buf_cat(dest, "u",  1, enc); break;
-            case CYR_F:      rb_enc_str_buf_cat(dest, "f",  1, enc); break;
-            case CYR_H:      rb_enc_str_buf_cat(dest, "h",  1, enc); break;
-            case CYR_C:      rb_enc_str_buf_cat(dest, "c",  1, enc); break;
-            case CYR_J:      rb_enc_str_buf_cat(dest, "j",  1, enc); break;
-            case CYR_LJ:     rb_enc_str_buf_cat(dest, "lj", 2, enc); break;
-            case CYR_NJ:     rb_enc_str_buf_cat(dest, "nj", 2, enc); break;
-            case CYR_DJ:     STR_CAT_COND_ASCII(ascii, dest, "dj", LAT_DJ, 2, enc); break;
-            case CYR_TJ:     STR_CAT_COND_ASCII(ascii, dest, "c", LAT_TJ, 1, enc); break;
-            case CYR_CH:     STR_CAT_COND_ASCII(ascii, dest, "c", LAT_CH, 1, enc); break;
-            case CYR_ZH:     STR_CAT_COND_ASCII(ascii, dest, "z", LAT_ZH, 1, enc); break;
-            case CYR_SH:     STR_CAT_COND_ASCII(ascii, dest, "s", LAT_SH, 1, enc); break;
-            case CYR_DZ:
-                rb_enc_str_buf_cat(dest, "d", 1, enc);
-                STR_CAT_COND_ASCII(ascii, dest, "z", LAT_ZH, 1, enc);
-                break;
-            default:
-                rb_enc_str_buf_cat(dest, pos, len, enc);
+        if (out) {
+            /* flush previous untranslatable sequence */
+            if (seq_start) {
+                rb_str_buf_cat(dest, seq_start, pos - seq_start);
+                seq_start = 0;
             }
+            _str_cat_char(dest, out, enc);
+            if (out2) _str_cat_char(dest, out2, enc);
+        }
+        else if (!seq_start) {
+            /* mark the beginning of an untranslatable sequence */
+            seq_start = pos;
         }
-        /* Cyrillic -> Latin conversion, caps */
-        else {
-            switch (codepoint) {
-            case CYR_CAP_J:  rb_enc_str_buf_cat(dest, "J",  1, enc); break;
-            case CYR_CAP_A:  rb_enc_str_buf_cat(dest, "A",  1, enc); break;
-            case CYR_CAP_B:  rb_enc_str_buf_cat(dest, "B",  1, enc); break;
-            case CYR_CAP_V:  rb_enc_str_buf_cat(dest, "V",  1, enc); break;
-            case CYR_CAP_G:  rb_enc_str_buf_cat(dest, "G",  1, enc); break;
-            case CYR_CAP_D:  rb_enc_str_buf_cat(dest, "D",  1, enc); break;
-            case CYR_CAP_E:  rb_enc_str_buf_cat(dest, "E",  1, enc); break;
-            case CYR_CAP_Z:  rb_enc_str_buf_cat(dest, "Z",  1, enc); break;
-            case CYR_CAP_I:  rb_enc_str_buf_cat(dest, "I",  1, enc); break;
-            case CYR_CAP_K:  rb_enc_str_buf_cat(dest, "K",  1, enc); break;
-            case CYR_CAP_L:  rb_enc_str_buf_cat(dest, "L",  1, enc); break;
-            case CYR_CAP_M:  rb_enc_str_buf_cat(dest, "M",  1, enc); break;
-            case CYR_CAP_N:  rb_enc_str_buf_cat(dest, "N",  1, enc); break;
-            case CYR_CAP_O:  rb_enc_str_buf_cat(dest, "O",  1, enc); break;
-            case CYR_CAP_P:  rb_enc_str_buf_cat(dest, "P",  1, enc); break;
-            case CYR_CAP_R:  rb_enc_str_buf_cat(dest, "R",  1, enc); break;
-            case CYR_CAP_S:  rb_enc_str_buf_cat(dest, "S",  1, enc); break;
-            case CYR_CAP_T:  rb_enc_str_buf_cat(dest, "T",  1, enc); break;
-            case CYR_CAP_U:  rb_enc_str_buf_cat(dest, "U",  1, enc); break;
-            case CYR_CAP_F:  rb_enc_str_buf_cat(dest, "F",  1, enc); break;
-            case CYR_CAP_H:  rb_enc_str_buf_cat(dest, "H",  1, enc); break;
-            case CYR_CAP_C:  rb_enc_str_buf_cat(dest, "C",  1, enc); break;
-            case CYR_CAP_TJ: STR_CAT_COND_ASCII(ascii, dest, "C", LAT_CAP_TJ, 1, enc); break;
-            case CYR_CAP_CH: STR_CAT_COND_ASCII(ascii, dest, "C", LAT_CAP_CH, 1, enc); break;
-            case CYR_CAP_ZH: STR_CAT_COND_ASCII(ascii, dest, "Z", LAT_CAP_ZH, 1, enc); break;
-            case CYR_CAP_SH: STR_CAT_COND_ASCII(ascii, dest, "S", LAT_CAP_SH, 1, enc); break;
-            case CYR_CAP_LJ:
-                rb_enc_str_buf_cat(dest, (force_upper ? "LJ" : "Lj"), 2, enc);
-                break;
-            case CYR_CAP_NJ:
-                rb_enc_str_buf_cat(dest, (force_upper ? "NJ" : "Nj"), 2, enc);
-                break;
-            case CYR_CAP_DJ:
-                STR_CAT_COND_ASCII(ascii, dest, (force_upper ? "DJ" : "Dj"), LAT_CAP_DJ, 2, enc);
-                break;
-            case CYR_CAP_DZ:
-                rb_enc_str_buf_cat(dest, "D", 1, enc);
-                if (force_upper) {
-                    STR_CAT_COND_ASCII(ascii, dest, "Z", LAT_CAP_ZH, 1, enc);
-                }
-                else {
-                    STR_CAT_COND_ASCII(ascii, dest, "z", LAT_ZH, 1, enc);
-                }
-                break;
-            default:
-                rb_enc_str_buf_cat(dest, pos, len, enc);
-            }
+        /* for cyrillic output, skip the second half of an input digraph */
+        if (strategy == 0 && is_digraph(out)) {
+            pos += next_len;
+            if (pos + len < end)
+                in2 = rb_enc_codepoint_len(pos + len, end, &next_len, enc);
         }
+        seen_cap = is_cap(in);
         pos += len;
         len = next_len;
-        codepoint = next_codepoint;
-        next_codepoint = 0;
+        in = in2;
     }
+    /* flush final sequence */
+    if (seq_start) rb_str_buf_cat(dest, seq_start, pos - seq_start);
     if (bang) {
         rb_str_shared_replace(str, dest);
     }
     else {
-	OBJ_INFECT(dest, str);
-	str = dest;
+        str = dest;
     }
     return str;
 }
+/**
+ * Returns a copy of <i>str</i> with Latin characters transliterated
+ * into Serbian Cyrillic.
+ *
+ * @overload to_cyrillic(str)
+ *   @param  [String] str text to be transliterated
+ *   @return [String] transliterated text
+ */
+static VALUE
+rb_str_to_cyrillic(VALUE self, VALUE str)
+{
+    return str_to_srb(str, 0, 0);
+}
+/**
+ * Performs transliteration of <code>Byk.to_cyrillic</code> in place,
+ * returning <i>str</i>, whether any changes were made or not.
+ *
+ * @overload to_cyrillic!(str)
+ *   @param  [String] str text to be transliterated
+ *   @return [String] transliterated text
+ */
 static VALUE
-rb_str_to_latin(int argc, VALUE *argv, VALUE str) {
-    return str_to_latin(argc, argv, str, 0, 0);
+rb_str_to_cyrillic_bang(VALUE self, VALUE str)
+{
+    return str_to_srb(str, 0, 1);
 }
+/**
+ * Returns a copy of <i>str</i> with Serbian Cyrillic characters
+ * transliterated into Latin.
+ *
+ * @overload to_latin(str)
+ *   @param  [String] str text to be transliterated
+ *   @return [String] transliterated text
+ */
 static VALUE
-rb_str_to_latin_bang(int argc, VALUE *argv, VALUE str) {
-    return str_to_latin(argc, argv, str, 0, 1);
+rb_str_to_latin(VALUE self, VALUE str)
+{
+    return str_to_srb(str, 1, 0);
 }
+/**
+ * Performs transliteration of <code>Byk.to_latin</code> in place,
+ * returning <i>str</i>, whether any changes were made or not.
+ *
+ * @overload to_latin!(str)
+ *   @param  [String] str text to be transliterated
+ *   @return [String] transliterated text
+ */
 static VALUE
-rb_str_to_ascii_latin(int argc, VALUE *argv, VALUE str) {
-    return str_to_latin(argc, argv, str, 1, 0);
+rb_str_to_latin_bang(VALUE self, VALUE str)
+{
+    return str_to_srb(str, 1, 1);
 }
+/**
+ * Returns a copy of <i>str</i> with Serbian characters transliterated
+ * into ASCII Latin.
+ *
+ * @overload to_ascii_latin(str)
+ *   @param  [String] str text to be transliterated
+ *   @return [String] transliterated text
+ */
 static VALUE
-rb_str_to_ascii_latin_bang(int argc, VALUE *argv, VALUE str) {
-    return str_to_latin(argc, argv, str, 1, 1);
+rb_str_to_ascii_latin(VALUE self, VALUE str)
+{
+    return str_to_srb(str, 2, 0);
+}
+/**
+ * Performs transliteration of <code>Byk.to_ascii_latin</code> in
+ * place, returning <i>str</i>, whether any changes were made or not.
+ *
+ * @overload to_ascii_latin!(str)
+ *   @param  [String] str text to be transliterated
+ *   @return [String] transliterated text
+ */
+static VALUE
+rb_str_to_ascii_latin_bang(VALUE self, VALUE str)
+{
+    return str_to_srb(str, 2, 1);
 }
 void Init_byk_native(void)
 {
-    rb_define_method(rb_cString, "to_latin",  rb_str_to_latin, -1);
-    rb_define_method(rb_cString, "to_latin!", rb_str_to_latin_bang, -1);
-    rb_define_method(rb_cString, "to_ascii_latin", rb_str_to_ascii_latin, -1);
-    rb_define_method(rb_cString, "to_ascii_latin!", rb_str_to_ascii_latin_bang, -1);
+    VALUE Byk = rb_define_module("Byk");
+    rb_define_singleton_method(Byk, "to_cyrillic", rb_str_to_cyrillic, 1);
+    rb_define_singleton_method(Byk, "to_cyrillic!", rb_str_to_cyrillic_bang, 1);
+    rb_define_singleton_method(Byk, "to_latin", rb_str_to_latin, 1);
+    rb_define_singleton_method(Byk, "to_latin!", rb_str_to_latin_bang, 1);
+    rb_define_singleton_method(Byk, "to_ascii_latin", rb_str_to_ascii_latin, 1);
+    rb_define_singleton_method(Byk, "to_ascii_latin!", rb_str_to_ascii_latin_bang, 1);
 }

data/lib/byk/core_ext/string.rb ADDED Viewed

@@ -0,0 +1,8 @@
+class String
+  Byk.singleton_methods.each do |method|
+    define_method(method) do
+      Byk.send(method, self)
+    end
+  end
+end

data/lib/byk/safe.rb ADDED Viewed

@@ -0,0 +1,14 @@
+# coding: utf-8
+require "byk_native"
+require "byk/version"
+module Byk
+  AZBUKA      = %w[а б в г д ђ е ж з и ј к л љ м н њ о п р с т ћ у ф х ц ч џ ш]
+  AZBUKA_CAPS = %W[А Б В Г Д Ђ Е Ж З И Ј К Л Љ М Н Њ О П Р С Т Ћ У Ф Х Ц Ч Џ Ш]
+  ABECEDA      = %w[a b c č ć d dž đ e f g h i j k l lj m n nj o p r s š t u v z ž]
+  ABECEDA_CAPS = %W[A B C Č Ć D Dž Đ E F G H I J K L Lj M N Nj O P R S Š T U V Z Ž]
+end

data/lib/byk/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module Byk
-  VERSION = "0.4.0"
+  VERSION = "1.1.0"
 end

data/lib/byk.rb CHANGED Viewed

@@ -1,14 +1,2 @@
-# coding: utf-8
-require "byk_native"
-require "byk/version"
-module Byk
-  AZBUKA      = %w[а б в г д ђ е ж з и ј к л љ м н њ о п р с т ћ у ф х ц ч џ ш]
-  AZBUKA_CAPS = %W[А Б В Г Д Ђ Е Ж З И Ј К Л Љ М Н Њ О П Р С Т Ћ У Ф Х Ц Ч Џ Ш]
-  ABECEDA      = %w[a b c č ć d dž đ e f g h i j k l lj m n nj o p r s š t u v z ž]
-  ABECEDA_CAPS = %W[A B C Č Ć D Dž Đ E F G H I J K L Lj M N Nj O P R S Š T U V Z Ž]
-end
+require "byk/safe"
+require "byk/core_ext/string"