RubyGems - u - Versions diffs - 0.5.0 → 1.0.0 - Mend

u 0.5.0 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (316) hide show

checksums.yaml +7 -0
data/build/ext/u/data/attributes.rb +39 -0
data/build/ext/u/data/bidi-mirroring.rb +27 -0
data/build/ext/u/data/canonical-combining-class.rb +15 -0
data/build/ext/u/data/case-folding.rb +39 -0
data/build/ext/u/data/cased.rb +19 -0
data/build/ext/u/data/compose.rb +304 -0
data/build/ext/u/data/constants.rb +31 -0
data/build/ext/u/data/decompose.rb +85 -0
data/build/ext/u/data/general-category.rb +61 -0
data/build/ext/u/data/grapheme-word-break.rb +15 -0
data/build/ext/u/data/marshalled.rb +5 -0
data/build/ext/u/data/script.rb +91 -0
data/build/ext/u/data/soft-dotted.rb +17 -0
data/build/ext/u/data/title-table.rb +30 -0
data/build/ext/u/data/wide.rb +17 -0
data/build/lib/u/build.rb +8 -0
data/build/lib/u/build/data.rb +16 -0
data/build/lib/u/build/data/bidimirroring.rb +26 -0
data/build/lib/u/build/data/break.rb +14 -0
data/build/lib/u/build/data/casefolding.rb +77 -0
data/build/lib/u/build/data/compositionexclusions.rb +14 -0
data/build/lib/u/build/data/derivedeastasianwidth.rb +15 -0
data/build/lib/u/build/data/file.rb +88 -0
data/build/lib/u/build/data/linebreak.rb +14 -0
data/build/lib/u/build/data/proplist.rb +18 -0
data/build/lib/u/build/data/scripts.rb +22 -0
data/build/lib/u/build/data/specialcasing.rb +106 -0
data/build/lib/u/build/data/unicode.rb +41 -0
data/build/lib/u/build/data/unicode/entry.rb +27 -0
data/build/lib/u/build/data/unicode/entry/decomposition.rb +29 -0
data/build/lib/u/build/data/unicode/points.rb +32 -0
data/build/lib/u/build/header.rb +11 -0
data/build/lib/u/build/header/table.rb +19 -0
data/build/lib/u/build/header/table/row.rb +64 -0
data/build/lib/u/build/header/tables.rb +6 -0
data/build/lib/u/build/header/tables/intervals.rb +50 -0
data/build/lib/u/build/header/tables/split.rb +20 -0
data/build/lib/u/build/header/tables/split/data.rb +29 -0
data/build/lib/u/build/header/tables/split/part1.rb +28 -0
data/build/lib/u/build/header/tables/split/part2.rb +13 -0
data/build/lib/u/build/header/tables/split/row.rb +34 -0
data/build/lib/u/build/header/tables/split/rows.rb +22 -0
data/build/test/unit/break.rb +45 -0
data/build/test/unit/case.rb +178 -0
data/build/test/unit/foldcase.rb +44 -0
data/build/test/unit/normalize.rb +81 -0
data/ext/u/attributes.c +62 -0
data/ext/u/attributes.h +5 -0
data/ext/u/case.h +41 -0
data/ext/u/data/attributes.h +3070 -0
data/ext/u/data/bidi-mirroring.h +373 -0
data/ext/u/data/canonical-combining-class.h +2157 -0
data/ext/u/data/case-folding.h +171 -0
data/ext/u/data/cased.h +42 -0
data/ext/u/data/compose.h +1714 -0
data/ext/u/data/constants.h +17 -0
data/ext/u/data/decompose.h +9356 -0
data/ext/u/data/general-category.h +28959 -0
data/ext/u/data/grapheme-break.h +13201 -0
data/ext/u/data/line-break.h +26501 -0
data/ext/u/data/normalization-quick-check.h +3002 -0
data/ext/u/data/script.h +2928 -0
data/ext/u/data/soft-dotted.h +55 -0
data/ext/u/data/title-table.h +41 -0
data/ext/u/data/types.h +11117 -0
data/ext/u/data/wide-cjk.h +197 -0
data/ext/u/data/wide.h +59 -0
data/ext/u/data/word-break.h +10001 -0
data/ext/u/depend +281 -0
data/ext/u/extconf.rb +158 -0
data/ext/u/output.h +51 -0
data/ext/{encoding/character/utf-8 → u}/private.c +11 -15
data/ext/u/private.h +58 -0
data/ext/u/rb_includes.h +10 -0
data/ext/u/rb_private.c +98 -0
data/ext/u/rb_private.h +67 -0
data/ext/u/rb_u.c +251 -0
data/ext/u/rb_u_buffer.c +443 -0
data/ext/u/rb_u_buffer.h +24 -0
data/ext/u/rb_u_re.c +43 -0
data/ext/u/rb_u_re.h +15 -0
data/ext/u/rb_u_string.c +478 -0
data/ext/u/rb_u_string.h +173 -0
data/ext/u/rb_u_string_alnum.c +10 -0
data/ext/u/rb_u_string_alpha.c +10 -0
data/ext/u/rb_u_string_aref.c +142 -0
data/ext/u/rb_u_string_ascii_only.c +13 -0
data/ext/u/rb_u_string_assigned.c +10 -0
data/ext/u/rb_u_string_b.c +18 -0
data/ext/u/rb_u_string_bytesize.c +10 -0
data/ext/u/rb_u_string_byteslice.c +103 -0
data/ext/u/rb_u_string_canonical_combining_class.c +33 -0
data/ext/u/rb_u_string_case_ignorable.c +25 -0
data/ext/u/rb_u_string_casecmp.c +61 -0
data/ext/u/rb_u_string_cased.c +17 -0
data/ext/u/rb_u_string_chomp.c +107 -0
data/ext/u/rb_u_string_chop.c +33 -0
data/ext/u/rb_u_string_chr.c +9 -0
data/ext/u/rb_u_string_cntrl.c +10 -0
data/ext/u/rb_u_string_collate.c +46 -0
data/ext/u/rb_u_string_collation_key.c +18 -0
data/ext/u/rb_u_string_count.c +38 -0
data/ext/u/rb_u_string_defined.c +10 -0
data/ext/u/rb_u_string_delete.c +62 -0
data/ext/u/rb_u_string_digit.c +10 -0
data/ext/u/rb_u_string_downcase.c +13 -0
data/ext/u/rb_u_string_dump.c +153 -0
data/ext/u/rb_u_string_each_byte.c +46 -0
data/ext/u/rb_u_string_each_char.c +49 -0
data/ext/u/rb_u_string_each_codepoint.c +45 -0
data/ext/u/rb_u_string_each_grapheme_cluster.c +36 -0
data/ext/u/rb_u_string_each_line.c +142 -0
data/ext/u/rb_u_string_each_word.c +34 -0
data/ext/u/rb_u_string_empty.c +11 -0
data/ext/u/rb_u_string_end_with.c +31 -0
data/ext/u/rb_u_string_eql.c +30 -0
data/ext/u/rb_u_string_equal.c +33 -0
data/ext/u/rb_u_string_foldcase.c +12 -0
data/ext/u/rb_u_string_folded.c +13 -0
data/ext/u/rb_u_string_format.c +1745 -0
data/ext/u/rb_u_string_general_category.c +109 -0
data/ext/u/rb_u_string_getbyte.c +21 -0
data/ext/u/rb_u_string_graph.c +21 -0
data/ext/u/rb_u_string_grapheme_break.c +61 -0
data/ext/u/rb_u_string_gsub.c +164 -0
data/ext/u/rb_u_string_hash.c +10 -0
data/ext/u/rb_u_string_hex.c +9 -0
data/ext/u/rb_u_string_include.c +10 -0
data/ext/u/rb_u_string_index.c +110 -0
data/ext/u/rb_u_string_inspect.c +189 -0
data/ext/u/rb_u_string_internal_tr.c +148 -0
data/ext/u/rb_u_string_internal_tr.h +29 -0
data/ext/u/rb_u_string_justify.c +169 -0
data/ext/u/rb_u_string_length.c +10 -0
data/ext/u/rb_u_string_line_break.c +115 -0
data/ext/u/rb_u_string_lower.c +13 -0
data/ext/u/rb_u_string_lstrip.c +24 -0
data/ext/u/rb_u_string_match.c +65 -0
data/ext/u/rb_u_string_mirror.c +16 -0
data/ext/u/rb_u_string_newline.c +21 -0
data/ext/u/rb_u_string_normalize.c +70 -0
data/ext/u/rb_u_string_normalized.c +28 -0
data/ext/u/rb_u_string_oct.c +11 -0
data/ext/u/rb_u_string_ord.c +14 -0
data/ext/u/rb_u_string_partition.c +80 -0
data/ext/u/rb_u_string_plus.c +33 -0
data/ext/u/rb_u_string_print.c +10 -0
data/ext/u/rb_u_string_punct.c +10 -0
data/ext/u/rb_u_string_reverse.c +13 -0
data/ext/u/rb_u_string_rindex.c +104 -0
data/ext/u/rb_u_string_rpartition.c +81 -0
data/ext/u/rb_u_string_rstrip.c +29 -0
data/ext/u/rb_u_string_scan.c +109 -0
data/ext/u/rb_u_string_script.c +253 -0
data/ext/u/rb_u_string_soft_dotted.c +13 -0
data/ext/u/rb_u_string_space.c +24 -0
data/ext/u/rb_u_string_split.c +245 -0
data/ext/u/rb_u_string_squeeze.c +75 -0
data/ext/u/rb_u_string_start_with.c +31 -0
data/ext/u/rb_u_string_strip.c +36 -0
data/ext/u/rb_u_string_sub.c +147 -0
data/ext/u/rb_u_string_times.c +35 -0
data/ext/u/rb_u_string_title.c +10 -0
data/ext/u/rb_u_string_titlecase.c +13 -0
data/ext/u/rb_u_string_to_i.c +45 -0
data/ext/u/rb_u_string_to_inum.c +364 -0
data/ext/u/rb_u_string_to_inum.h +1 -0
data/ext/u/rb_u_string_to_str.c +17 -0
data/ext/u/rb_u_string_to_sym.c +12 -0
data/ext/u/rb_u_string_tr.c +290 -0
data/ext/u/rb_u_string_upcase.c +12 -0
data/ext/u/rb_u_string_upper.c +13 -0
data/ext/u/rb_u_string_valid.c +10 -0
data/ext/u/rb_u_string_valid_encoding.c +12 -0
data/ext/u/rb_u_string_wide.c +21 -0
data/ext/u/rb_u_string_wide_cjk.c +21 -0
data/ext/u/rb_u_string_width.c +19 -0
data/ext/u/rb_u_string_word_break.c +63 -0
data/ext/u/rb_u_string_xdigit.c +22 -0
data/ext/u/rb_u_string_zero_width.c +16 -0
data/ext/u/titled.c +55 -0
data/ext/u/titled.h +1 -0
data/ext/u/u.c +23 -0
data/ext/u/u.h +458 -0
data/ext/u/u_char_canonical_combining_class.c +31 -0
data/ext/u/u_char_digit_value.c +21 -0
data/ext/u/u_char_downcase.c +27 -0
data/ext/u/u_char_general_category.c +31 -0
data/ext/u/u_char_grapheme_break.c +28 -0
data/ext/u/u_char_isalnum.c +24 -0
data/ext/u/u_char_isalpha.c +21 -0
data/ext/u/u_char_isassigned.c +16 -0
data/ext/u/u_char_iscased.c +22 -0
data/ext/u/u_char_iscaseignorable.c +29 -0
data/ext/u/u_char_iscntrl.c +17 -0
data/ext/u/u_char_isdefined.c +15 -0
data/ext/u/u_char_isdigit.c +16 -0
data/ext/u/u_char_isgraph.c +22 -0
data/ext/u/u_char_islower.c +16 -0
data/ext/u/u_char_isnewline.c +24 -0
data/ext/u/u_char_isprint.c +21 -0
data/ext/u/u_char_ispunct.c +27 -0
data/ext/u/u_char_issoftdotted.c +18 -0
data/ext/u/u_char_isspace.c +28 -0
data/ext/u/u_char_isupper.c +16 -0
data/ext/u/u_char_isvalid.c +18 -0
data/ext/u/u_char_iswide.c +18 -0
data/ext/u/u_char_iswide_cjk.c +22 -0
data/ext/u/u_char_isxdigit.c +27 -0
data/ext/u/u_char_iszerowidth.c +29 -0
data/ext/u/u_char_line_break.c +29 -0
data/ext/u/u_char_mirror.c +16 -0
data/ext/u/u_char_normalized.c +23 -0
data/ext/u/u_char_script.c +41 -0
data/ext/u/u_char_to_u.c +48 -0
data/ext/u/u_char_upcase.c +24 -0
data/ext/u/u_char_width.c +12 -0
data/ext/u/u_char_word_break.c +28 -0
data/ext/u/u_char_xdigit_value.c +31 -0
data/ext/u/u_collate.c +83 -0
data/ext/u/u_collation_key.c +132 -0
data/ext/u/u_decode.c +156 -0
data/ext/u/u_downcase.c +201 -0
data/ext/u/u_foldcase.c +68 -0
data/ext/u/u_grapheme_clusters.c +57 -0
data/ext/u/u_has_prefix.c +27 -0
data/ext/u/u_index.c +93 -0
data/ext/u/u_is_ascii_only.c +33 -0
data/ext/u/u_locale.c +40 -0
data/ext/u/u_locale.h +14 -0
data/ext/u/u_mirror.c +20 -0
data/ext/u/u_n_bytes.c +16 -0
data/ext/u/u_n_chars.c +43 -0
data/ext/u/u_normalize.c +232 -0
data/ext/u/u_normalized.c +28 -0
data/ext/u/u_offset_to_pointer.c +62 -0
data/ext/u/u_pointer_to_offset.c +23 -0
data/ext/u/u_recode.c +73 -0
data/ext/u/u_reverse.c +21 -0
data/ext/u/u_rindex.c +132 -0
data/ext/u/u_titlecase.c +68 -0
data/ext/u/u_upcase.c +89 -0
data/ext/u/u_width.c +35 -0
data/ext/u/u_words.c +82 -0
data/ext/u/yield.h +27 -0
data/lib/u-1.0.rb +20 -0
data/lib/u-1.0/buffer.rb +10 -0
data/lib/u-1.0/string.rb +9 -0
data/lib/u-1.0/version.rb +287 -0
data/test/unit/case.rb +2080 -0
data/test/unit/foldcase.rb +1136 -0
data/test/unit/graphemebreak.rb +407 -0
data/test/unit/normalize.rb +367545 -0
data/test/unit/u-1.0.rb +10 -0
data/test/unit/u-1.0/buffer.rb +52 -0
data/test/unit/u-1.0/string.rb +1439 -0
data/test/unit/{u.rb → u-1.0/version.rb} +0 -1
data/test/unit/wordbreak.rb +1083 -0
metadata +603 -148
data/README +0 -38
data/Rakefile +0 -64
data/ext/encoding/character/utf-8/break.c +0 -25
data/ext/encoding/character/utf-8/data/break.h +0 -22931
data/ext/encoding/character/utf-8/data/character-tables.h +0 -14358
data/ext/encoding/character/utf-8/data/compose.h +0 -1607
data/ext/encoding/character/utf-8/data/decompose.h +0 -10926
data/ext/encoding/character/utf-8/data/generate-unicode-data.rb +0 -1070
data/ext/encoding/character/utf-8/decompose.c +0 -444
data/ext/encoding/character/utf-8/depend +0 -65
data/ext/encoding/character/utf-8/extconf.rb +0 -67
data/ext/encoding/character/utf-8/private.h +0 -51
data/ext/encoding/character/utf-8/properties.c +0 -1056
data/ext/encoding/character/utf-8/rb_includes.h +0 -19
data/ext/encoding/character/utf-8/rb_methods.h +0 -49
data/ext/encoding/character/utf-8/rb_private.h +0 -52
data/ext/encoding/character/utf-8/rb_utf_aref.c +0 -111
data/ext/encoding/character/utf-8/rb_utf_aset.c +0 -105
data/ext/encoding/character/utf-8/rb_utf_casecmp.c +0 -24
data/ext/encoding/character/utf-8/rb_utf_chomp.c +0 -114
data/ext/encoding/character/utf-8/rb_utf_chop.c +0 -44
data/ext/encoding/character/utf-8/rb_utf_collate.c +0 -13
data/ext/encoding/character/utf-8/rb_utf_count.c +0 -30
data/ext/encoding/character/utf-8/rb_utf_delete.c +0 -60
data/ext/encoding/character/utf-8/rb_utf_downcase.c +0 -13
data/ext/encoding/character/utf-8/rb_utf_each_char.c +0 -27
data/ext/encoding/character/utf-8/rb_utf_foldcase.c +0 -13
data/ext/encoding/character/utf-8/rb_utf_hex.c +0 -14
data/ext/encoding/character/utf-8/rb_utf_index.c +0 -50
data/ext/encoding/character/utf-8/rb_utf_insert.c +0 -48
data/ext/encoding/character/utf-8/rb_utf_internal_bignum.c +0 -332
data/ext/encoding/character/utf-8/rb_utf_internal_bignum.h +0 -12
data/ext/encoding/character/utf-8/rb_utf_internal_tr.c +0 -142
data/ext/encoding/character/utf-8/rb_utf_internal_tr.h +0 -41
data/ext/encoding/character/utf-8/rb_utf_justify.c +0 -96
data/ext/encoding/character/utf-8/rb_utf_length.c +0 -14
data/ext/encoding/character/utf-8/rb_utf_lstrip.c +0 -41
data/ext/encoding/character/utf-8/rb_utf_normalize.c +0 -51
data/ext/encoding/character/utf-8/rb_utf_oct.c +0 -14
data/ext/encoding/character/utf-8/rb_utf_reverse.c +0 -13
data/ext/encoding/character/utf-8/rb_utf_rindex.c +0 -88
data/ext/encoding/character/utf-8/rb_utf_rstrip.c +0 -51
data/ext/encoding/character/utf-8/rb_utf_squeeze.c +0 -70
data/ext/encoding/character/utf-8/rb_utf_strip.c +0 -27
data/ext/encoding/character/utf-8/rb_utf_to_i.c +0 -25
data/ext/encoding/character/utf-8/rb_utf_tr.c +0 -250
data/ext/encoding/character/utf-8/rb_utf_upcase.c +0 -13
data/ext/encoding/character/utf-8/tables.h +0 -38
data/ext/encoding/character/utf-8/unicode.c +0 -319
data/ext/encoding/character/utf-8/unicode.h +0 -216
data/ext/encoding/character/utf-8/utf.c +0 -1334
data/lib/encoding/character/utf-8.rb +0 -201
data/lib/u.rb +0 -16
data/lib/u/string.rb +0 -185
data/lib/u/version.rb +0 -5
data/test/unit/u/string.rb +0 -91

data/ext/u/rb_u_string_general_category.c ADDED

@@ -0,0 +1,109 @@
+#include "rb_includes.h"
+#define CATEGORY2ID(type, symbol) \
+        case U_GENERAL_CATEGORY_##type: { \
+                static ID id_##symbol; \
+                if (id_##symbol == 0) \
+                        id_##symbol = rb_intern(#symbol); \
+                return ID2SYM(id_##symbol); \
+        }
+static VALUE
+category_to_symbol(enum u_general_category category)
+{
+        switch (category) {
+        CATEGORY2ID(OTHER_CONTROL, other_control)
+        CATEGORY2ID(OTHER_FORMAT, other_format)
+        CATEGORY2ID(OTHER_NOT_ASSIGNED, other_not_assigned)
+        CATEGORY2ID(OTHER_PRIVATE_USE, other_private_use)
+        CATEGORY2ID(OTHER_SURROGATE, other_surrogate)
+        CATEGORY2ID(LETTER_LOWERCASE, letter_lowercase)
+        CATEGORY2ID(LETTER_MODIFIER, letter_modifier)
+        CATEGORY2ID(LETTER_OTHER, letter_other)
+        CATEGORY2ID(LETTER_TITLECASE, letter_titlecase)
+        CATEGORY2ID(LETTER_UPPERCASE, letter_uppercase)
+        CATEGORY2ID(MARK_SPACING_COMBINING, mark_spacing_combining)
+        CATEGORY2ID(MARK_ENCLOSING, mark_enclosing)
+        CATEGORY2ID(MARK_NON_SPACING, mark_non_spacing)
+        CATEGORY2ID(NUMBER_DECIMAL, number_decimal)
+        CATEGORY2ID(NUMBER_LETTER, number_letter)
+        CATEGORY2ID(NUMBER_OTHER, number_other)
+        CATEGORY2ID(PUNCTUATION_CONNECTOR, punctuation_connector)
+        CATEGORY2ID(PUNCTUATION_DASH, punctuation_dash)
+        CATEGORY2ID(PUNCTUATION_CLOSE, punctuation_close)
+        CATEGORY2ID(PUNCTUATION_FINAL_QUOTE, punctuation_final_quote)
+        CATEGORY2ID(PUNCTUATION_INITIAL_QUOTE, punctuation_initial_quote)
+        CATEGORY2ID(PUNCTUATION_OTHER, punctuation_other)
+        CATEGORY2ID(PUNCTUATION_OPEN, punctuation_open)
+        CATEGORY2ID(SYMBOL_CURRENCY, symbol_currency)
+        CATEGORY2ID(SYMBOL_MODIFIER, symbol_modifier)
+        CATEGORY2ID(SYMBOL_MATH, symbol_math)
+        CATEGORY2ID(SYMBOL_OTHER, symbol_other)
+        CATEGORY2ID(SEPARATOR_LINE, separator_line)
+        CATEGORY2ID(SEPARATOR_PARAGRAPH, separator_paragraph)
+        CATEGORY2ID(SEPARATOR_SPACE, separator_space)
+        default:
+                rb_u_raise(rb_eNotImpError, "unknown general category: %d", category);
+        }
+}
+/* Returns the general category of the characters of the receiver.
+ *
+ * The general category identifies what kind of symbol the character is.
+ *
+ * <table>
+ *   <thead>
+ *     <tr>
+ *       <th>Category Major, minor</th>
+ *       <th>Unicode Value</th>
+ *       <th>Ruby Value</th>
+ *     </tr>
+ *   </thead>
+ *   <tbody>
+ *     <tr><td>Other, control</td><td>Cc</td><td>:other_control</td></tr>
+ *     <tr><td>Other, format</td><td>Cf</td><td>:other_format</td></tr>
+ *     <tr><td>Other, not assigned</td><td>Cn</td><td>:other_not_assigned</td></tr>
+ *     <tr><td>Other, private use</td><td>Co</td><td>:other_private_use</td></tr>
+ *     <tr><td>Other, surrogate</td><td>Cs</td><td>:other_surrogate</td></tr>
+ *     <tr><td>Letter, lowercase</td><td>Ll</td><td>:letter_lowercase</td></tr>
+ *     <tr><td>Letter, modifier</td><td>Lm</td><td>:letter_modifier</td></tr>
+ *     <tr><td>Letter, other</td><td>Lo</td><td>:letter_other</td></tr>
+ *     <tr><td>Letter, titlecase</td><td>Lt</td><td>:letter_titlecase</td></tr>
+ *     <tr><td>Letter, uppercase</td><td>Lu</td><td>:letter_uppercase</td></tr>
+ *     <tr><td>Mark, spacing combining</td><td>Mc</td><td>:mark_spacing_combining</td></tr>
+ *     <tr><td>Mark, enclosing</td><td>Me</td><td>:mark_enclosing</td></tr>
+ *     <tr><td>Mark, nonspacing</td><td>Mn</td><td>:mark_non_spacing</td></tr>
+ *     <tr><td>Number, decimal digit</td><td>Nd</td><td>:number_decimal</td></tr>
+ *     <tr><td>Number, letter</td><td>Nl</td><td>:number_letter</td></tr>
+ *     <tr><td>Number, other</td><td>No</td><td>:number_other</td></tr>
+ *     <tr><td>Punctuation, connector</td><td>Pc</td><td>:punctuation_connector</td></tr>
+ *     <tr><td>Punctuation, dash</td><td>Pd</td><td>:punctuation_dash</td></tr>
+ *     <tr><td>Punctuation, close</td><td>Pe</td><td>:punctuation_close</td></tr>
+ *     <tr><td>Punctuation, final quote</td><td>Pf</td><td>:punctuation_final_quote</td></tr>
+ *     <tr><td>Punctuation, initial quote</td><td>Pi</td><td>:punctuation_initial_quote</td></tr>
+ *     <tr><td>Punctuation, other</td><td>Po</td><td>:punctuation_other</td></tr>
+ *     <tr><td>Punctuation, open</td><td>Ps</td><td>:punctuation_open</td></tr>
+ *     <tr><td>Symbol, currency</td><td>Sc</td><td>:symbol_currency</td></tr>
+ *     <tr><td>Symbol, modifier</td><td>Sk</td><td>:symbol_modifier</td></tr>
+ *     <tr><td>Symbol, math</td><td>Sm</td><td>:symbol_math</td></tr>
+ *     <tr><td>Symbol, other</td><td>So</td><td>:symbol_other</td></tr>
+ *     <tr><td>Separator, line</td><td>Zl</td><td>:separator_line</td></tr>
+ *     <tr><td>Separator, paragraph</td><td>Zp</td><td>:separator_paragraph</td></tr>
+ *     <tr><td>Separator, space</td><td>Zs</td><td>:separator_space</td></tr>
+ *   </tbody>
+ * </table>
+ *
+ * @raise [ArgumentError] If the receiver contains two characters belonging to
+ *   different general categories
+ * @raise [ArgumentError] If the receiver contains an incomplete UTF-8 sequence
+ * @raise [ArgumentError] If the receiver contains an invalid UTF-8 sequence
+ * @return [Symbol]
+ * @see http://www.unicode.org/notes/tn36/
+ *   Unicode Technical Note #36: A Categorization of Unicode Characters */
+VALUE
+rb_u_string_general_category(VALUE self)
+{
+        return _rb_u_string_property(self, "general category", U_GENERAL_CATEGORY_OTHER_NOT_ASSIGNED,
+                                     (int (*)(uint32_t))u_char_general_category,
+                                     (VALUE (*)(int))category_to_symbol);
+}

data/ext/u/rb_u_string_getbyte.c ADDED

@@ -0,0 +1,21 @@
+#include "rb_includes.h"
+/* @overload getbyte(index)
+ *   @param [#to_int] index
+ *   @return [Fixnum, nil] The byte at byte-index _i_, where _i_ = INDEX if
+ *     INDEX ≥ 0, _i_ = {#bytesize} - abs(INDEX) otherwise, or nil if _i_ lays
+ *     outside of [0, {#bytesize}] */
+VALUE
+rb_u_string_getbyte(VALUE self, VALUE rbindex)
+{
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        long index = NUM2LONG(rbindex);
+        if (index < 0)
+                index += USTRING_LENGTH(string);
+        if (index < 0 || USTRING_LENGTH(string) <= index)
+                return Qnil;
+        return INT2FIX((unsigned char)USTRING_STR(string)[index]);
+}

data/ext/u/rb_u_string_graph.c ADDED

@@ -0,0 +1,21 @@
+#include "rb_includes.h"
+/* @overload graph?
+ *
+ *   Returns true if the receiver contains only non-space “printable” characters.
+ *
+ *   Non-space “printable” character are those not in the general categories
+ *   Other or Space, separator (Zs):
+ *
+ *   * Other, control (Cc)
+ *   * Other, format (Cf)
+ *   * Other, not assigned (Cn)
+ *   * Other, surrogate (Cs)
+ *   * Space, separator (Zs)
+ *
+ *   @return [Boolean] */
+VALUE
+rb_u_string_graph(VALUE self)
+{
+        return _rb_u_character_test(self, u_char_isgraph);
+}

data/ext/u/rb_u_string_grapheme_break.c ADDED

@@ -0,0 +1,61 @@
+#include "rb_includes.h"
+#define BREAK2ID(value, symbol) \
+        case U_GRAPHEME_BREAK_##value: { \
+                static ID id_##symbol; \
+                if (id_##symbol == 0) \
+                        id_##symbol = rb_intern(#symbol); \
+                return ID2SYM(id_##symbol); \
+        }
+static VALUE
+break_to_symbol(enum u_grapheme_break value)
+{
+        switch (value) {
+        BREAK2ID(CONTROL, control)
+        BREAK2ID(CR, cr)
+        BREAK2ID(EXTEND, extend)
+        BREAK2ID(L, l)
+        BREAK2ID(LF, lf)
+        BREAK2ID(LV, lv)
+        BREAK2ID(LVT, lvt)
+        BREAK2ID(OTHER, other)
+        BREAK2ID(PREPEND, prepend)
+        BREAK2ID(REGIONAL_INDICATOR, regional_indicator)
+        BREAK2ID(SPACINGMARK, spacingmark)
+        BREAK2ID(T, t)
+        BREAK2ID(V, v)
+        default:
+                rb_u_raise(rb_eNotImpError, "unknown grapheme break: %d", value);
+        }
+}
+/* Returns the grapheme break property value of the characters of the receiver.
+ *
+ * The possible break values are
+ *
+ * * :control
+ * * :cr
+ * * :extend
+ * * :l
+ * * :lf
+ * * :lv
+ * * :lvt
+ * * :other
+ * * :prepend
+ * * :regional_indicator
+ * * :spacingmark
+ * * :t
+ * * :v
+ *
+ * @raise [ArgumentError] If the string consists of more than one break type
+ * @return [Symbol]
+ * @see http://www.unicode.org/reports/tr29/
+ *   Unicode Standard Annex #29: Unicode Text Segmentation */
+VALUE
+rb_u_string_grapheme_break(VALUE self)
+{
+        return _rb_u_string_property(self, "grapheme break", U_GRAPHEME_BREAK_OTHER,
+                                     (int (*)(uint32_t))u_char_grapheme_break,
+                                     (VALUE (*)(int))break_to_symbol);
+}

data/ext/u/rb_u_string_gsub.c ADDED

@@ -0,0 +1,164 @@
+#include "rb_includes.h"
+#include "rb_u_re.h"
+/* @overload gsub(pattern, replacement)
+ *
+ *   Returns the receiver with all matches of PATTERN replaced by REPLACEMENT,
+ *   inheriting any taint and untrust from the receiver and from REPLACEMENT.
+ *
+ *   The REPLACEMENT is used as a specification for what to replace matches
+ *   with:
+ *
+ *   <table>
+ *     <thead>
+ *       <tr><th>Specification</th><th>Replacement</th></tr>
+ *     </thead>
+ *     <tbody>
+ *       <tr>
+ *         <td><code>\1</code>, <code>\2</code>, …, <code>\</code><em>n</em></td>
+ *         <td>Numbered sub-match <em>n</em></td>
+ *       </tr>
+ *       <tr>
+ *         <td><code>\k&lt;</code><em>name</em><code>></code></td>
+ *         <td>Named sub-match <em>name</em></td>
+ *       </tr>
+ *     </tbody>
+ *   </table>
+ *
+ *   The Regexp special variables `$&`, `$'`, <code>$\`</code>, `$1`, `$2`, …,
+ *   `$`_n_ are updated accordingly.
+ *
+ *   @param [Regexp, #to_str] pattern
+ *   @param [#to_str] replacement
+ *   @return [U::String]
+ *
+ * @overload gsub(pattern, replacements)
+ *
+ *   Returns the receiver with all matches of PATTERN replaced by
+ *   REPLACEMENTS#[_match_], where _match_ is the matched substring, inheriting
+ *   any taint and untrust from the receiver and from the
+ *   REPLACEMENTS#[_match_]es, as well as any taint on REPLACEMENTS.
+ *
+ *   The Regexp special variables `$&`, `$'`, <code>$\`</code>, `$1`, `$2`, …,
+ *   `$`_n_ are updated accordingly.
+ *
+ *   @param [Regexp, #to_str] pattern
+ *   @param [#to_hash] replacements
+ *   @raise [RuntimeError] If any replacement is the result being constructed
+ *   @raise [Exception] Any error raised by REPLACEMENTS#default, if it gets
+ *     called
+ *   @return [U::String]
+ *
+ * @overload gsub(pattern){ |match| … }
+ *
+ *   Returns the receiver with all matches of PATTERN replaced by the results
+ *   of the given block, inheriting any taint and untrust from the receiver and
+ *   from the results of the given block.
+ *
+ *   The Regexp special variables `$&`, `$'`, <code>$\`</code>, `$1`, `$2`, …,
+ *   `$`_n_ are updated accordingly.
+ *
+ *   @param [Regexp, #to_str] pattern
+ *   @yieldparam [U::String] match
+ *   @yieldreturn [#to_str]
+ *   @return [U::String]
+ *
+ * @overload gsub(pattern)
+ *
+ *   Returns an Enumerator over the matches of PATTERN in the receiver.
+ *
+ *   The Regexp special variables `$&`, `$'`, <code>$\`</code>, `$1`, `$2`, …,
+ *   `$`_n_ will be updated accordingly.
+ *
+ *   @param [Regexp, #to_str] pattern
+ *   @return [Enumerator] */
+VALUE
+rb_u_string_gsub(int argc, VALUE *argv, VALUE self)
+{
+        VALUE pattern, replacement;
+        VALUE replacements = Qnil;
+        bool use_block = false;
+        bool tainted = false;
+        if (argc == 1) {
+                RETURN_ENUMERATOR(self, argc, argv);
+                use_block = true;
+        }
+        if (rb_scan_args(argc, argv, "11", &pattern, &replacement) == 2) {
+                replacements = rb_check_convert_type(replacement, T_HASH,
+                                                     "Hash", "to_hash");
+                if (NIL_P(replacements))
+                        StringValue(replacement);
+                if (OBJ_TAINTED(replacement))
+                        tainted = true;
+        }
+        pattern = rb_u_pattern_argument(pattern, true);
+        VALUE str = rb_str_to_str(self);
+        long begin = rb_reg_search(pattern, str, 0, 0);
+        if (begin < 0)
+                return self;
+        const char *base = RSTRING_PTR(str);
+        const char *p = base;
+        const char *end = RSTRING_END(str);
+        VALUE substituted = rb_u_str_buf_new(RSTRING_LEN(str) + 30);
+        do {
+                VALUE match = rb_backref_get();
+                struct re_registers *registers = RMATCH_REGS(match);
+                VALUE result;
+                if (use_block || !NIL_P(replacements)) {
+                        if (use_block) {
+                                VALUE ustr = rb_u_string_new_rb(rb_reg_nth_match(0, match));
+                                result = rb_u_string_object_as_string(rb_yield(ustr));
+                        } else {
+                                VALUE ustr = rb_u_string_new_c(self,
+                                                               base + registers->beg[0],
+                                                               registers->end[0] - registers->beg[0]);
+                                result = rb_u_string_object_as_string(rb_hash_aref(replacements, ustr));
+                        }
+                        if (result == substituted)
+                                rb_u_raise(rb_eRuntimeError,
+                                           "result of block is string being built; please try not to cheat");
+                } else
+                        result =
+#ifdef HAVE_RB_REG_REGSUB4
+                        rb_reg_regsub(replacement, str, registers, pattern);
+#else
+                        rb_reg_regsub(replacement, str, registers);
+#endif
+                if (OBJ_TAINTED(result))
+                        tainted = true;
+                const struct rb_u_string *value = RVAL2USTRING_ANY(result);
+                rb_str_buf_cat(substituted, p, registers->beg[0] - (p - base));
+                rb_str_buf_cat(substituted, USTRING_STR(value), USTRING_LENGTH(value));
+                OBJ_INFECT(substituted, result);
+                p = base + registers->end[0];
+                if (registers->beg[0] == registers->end[0])
+                        p = u_next(p);
+                if (p >= end)
+                        break;
+                begin = rb_reg_search(pattern, str, registers->end[0], 0);
+        } while (begin >= 0);
+        if (p < end)
+                rb_str_buf_cat(substituted, p, end - p);
+        rb_reg_search(pattern, str, end - p, 0);
+        RBASIC(substituted)->klass = rb_obj_class(str);
+        OBJ_INFECT(substituted, str);
+        if (tainted)
+                OBJ_TAINT(substituted);
+        return rb_u_string_new_rb(substituted);
+}

data/ext/u/rb_u_string_hash.c ADDED

@@ -0,0 +1,10 @@
+#include "rb_includes.h"
+/* @return [Fixnum] The hash value of the receiver’s content */
+VALUE
+rb_u_string_hash(VALUE self)
+{
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        return INT2FIX(rb_memhash(USTRING_STR(string), USTRING_LENGTH(string)));
+}

data/ext/u/rb_u_string_hex.c ADDED

@@ -0,0 +1,9 @@
+#include "rb_includes.h"
+#include "rb_u_string_to_inum.h"
+/* @return [Integer] The result of {#to_i}(16) */
+VALUE
+rb_u_string_hex(VALUE self)
+{
+        return rb_u_string_to_inum(self, 16, false);
+}

data/ext/u/rb_u_string_include.c ADDED

@@ -0,0 +1,10 @@
+#include "rb_includes.h"
+/* @overload include?(substring)
+ *   @param [#to_str] substring
+ *   @return [Boolean] True if {#index}(SUBSTRING) ≠ nil */
+VALUE
+rb_u_string_include(VALUE self, VALUE substring)
+{
+        return rb_u_string_index(self, substring, 0) != -1 ? Qtrue : Qfalse;
+}

data/ext/u/rb_u_string_index.c ADDED

@@ -0,0 +1,110 @@
+#include "rb_includes.h"
+#include "rb_u_re.h"
+/* TODO: Return VALUE. */
+long
+rb_u_string_index_regexp(VALUE self, const char *begin, VALUE regex, bool reverse)
+{
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        VALUE rbstring = rb_str_to_str(self);
+        const char *base = USTRING_STR(string);
+        long index = rb_reg_search(regex, rbstring,
+                                   rb_reg_adjust_startpos(regex, rbstring,
+                                                          begin - base,
+                                                          reverse),
+                                   reverse);
+        if (index == -1)
+                return -1;
+        return u_pointer_to_offset(base, base + index);
+}
+/* TODO: Return VALUE. */
+long
+rb_u_string_index(VALUE self, VALUE rbsubstring, long offset)
+{
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        const struct rb_u_string *substring = RVAL2USTRING_ANY(rbsubstring);
+        const char *begin = rb_u_string_begin_from_offset(string, offset);
+        if (begin == NULL)
+                return -1;
+        const char *end = USTRING_END(string);
+        long substring_length = USTRING_LENGTH(substring);
+        if (end - begin < substring_length)
+                return -1;
+        if (substring_length == 0)
+                return offset;
+        /* TODO: Should we really be using rb_memsearch?  Why not something
+         * more Unicodey? */
+        long index = rb_u_memsearch(USTRING_STR(substring), substring_length,
+                                    begin,
+                                    end - begin);
+        if (index < 0)
+                return -1;
+        return offset + u_pointer_to_offset(begin, begin + index);
+}
+/* @overload index(pattern, offset = 0)
+ *
+ *   Returns the minimal index of the receiver where PATTERN matches, equal to or
+ *   greater than _i_, where _i_ = OFFSET if OFFSET ≥ 0, _i_ = {#length} -
+ *   abs(OFFSET) otherwise, or nil if there is no match.
+ *
+ *   If PATTERN is a Regexp, the Regexp special variables `$&`, `$'`,
+ *   <code>$\`</code>, `$1`, `$2`, …, `$`_n_ are updated accordingly.
+ *
+ *   If PATTERN responds to #to_str, the matching is performed by byte
+ *   comparison.
+ *
+ *   @param [Regexp, #to_str] pattern
+ *   @param [#to_int] offset
+ *   @return [Integer, nil]
+ *   @see #rindex */
+VALUE
+rb_u_string_index_m(int argc, VALUE *argv, VALUE self)
+{
+        VALUE sub, rboffset;
+        long offset = 0;
+        if (rb_scan_args(argc, argv, "11", &sub, &rboffset) == 2)
+                offset = NUM2LONG(rboffset);
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        const char *begin = rb_u_string_begin_from_offset(string, offset);
+        if (begin == NULL) {
+                if (TYPE(sub) == T_REGEXP)
+                        rb_backref_set(Qnil);
+                return Qnil;
+        }
+        switch (TYPE(sub)) {
+        case T_REGEXP:
+                offset = rb_u_string_index_regexp(self, begin, sub, false);
+                break;
+        default: {
+                VALUE tmp = rb_check_string_type(sub);
+                if (NIL_P(tmp))
+                        rb_u_raise(rb_eTypeError, "type mismatch: %s given",
+                                   rb_obj_classname(sub));
+                sub = tmp;
+        }
+                /* fall through */
+        case T_STRING:
+                offset = rb_u_string_index(self, sub, offset);
+                break;
+        }
+        if (offset < 0)
+                return Qnil;
+        return LONG2NUM(offset);
+}