RubyGems - u - Versions diffs - 0.5.0 → 1.0.0 - Mend

u 0.5.0 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (316) hide show

checksums.yaml +7 -0
data/build/ext/u/data/attributes.rb +39 -0
data/build/ext/u/data/bidi-mirroring.rb +27 -0
data/build/ext/u/data/canonical-combining-class.rb +15 -0
data/build/ext/u/data/case-folding.rb +39 -0
data/build/ext/u/data/cased.rb +19 -0
data/build/ext/u/data/compose.rb +304 -0
data/build/ext/u/data/constants.rb +31 -0
data/build/ext/u/data/decompose.rb +85 -0
data/build/ext/u/data/general-category.rb +61 -0
data/build/ext/u/data/grapheme-word-break.rb +15 -0
data/build/ext/u/data/marshalled.rb +5 -0
data/build/ext/u/data/script.rb +91 -0
data/build/ext/u/data/soft-dotted.rb +17 -0
data/build/ext/u/data/title-table.rb +30 -0
data/build/ext/u/data/wide.rb +17 -0
data/build/lib/u/build.rb +8 -0
data/build/lib/u/build/data.rb +16 -0
data/build/lib/u/build/data/bidimirroring.rb +26 -0
data/build/lib/u/build/data/break.rb +14 -0
data/build/lib/u/build/data/casefolding.rb +77 -0
data/build/lib/u/build/data/compositionexclusions.rb +14 -0
data/build/lib/u/build/data/derivedeastasianwidth.rb +15 -0
data/build/lib/u/build/data/file.rb +88 -0
data/build/lib/u/build/data/linebreak.rb +14 -0
data/build/lib/u/build/data/proplist.rb +18 -0
data/build/lib/u/build/data/scripts.rb +22 -0
data/build/lib/u/build/data/specialcasing.rb +106 -0
data/build/lib/u/build/data/unicode.rb +41 -0
data/build/lib/u/build/data/unicode/entry.rb +27 -0
data/build/lib/u/build/data/unicode/entry/decomposition.rb +29 -0
data/build/lib/u/build/data/unicode/points.rb +32 -0
data/build/lib/u/build/header.rb +11 -0
data/build/lib/u/build/header/table.rb +19 -0
data/build/lib/u/build/header/table/row.rb +64 -0
data/build/lib/u/build/header/tables.rb +6 -0
data/build/lib/u/build/header/tables/intervals.rb +50 -0
data/build/lib/u/build/header/tables/split.rb +20 -0
data/build/lib/u/build/header/tables/split/data.rb +29 -0
data/build/lib/u/build/header/tables/split/part1.rb +28 -0
data/build/lib/u/build/header/tables/split/part2.rb +13 -0
data/build/lib/u/build/header/tables/split/row.rb +34 -0
data/build/lib/u/build/header/tables/split/rows.rb +22 -0
data/build/test/unit/break.rb +45 -0
data/build/test/unit/case.rb +178 -0
data/build/test/unit/foldcase.rb +44 -0
data/build/test/unit/normalize.rb +81 -0
data/ext/u/attributes.c +62 -0
data/ext/u/attributes.h +5 -0
data/ext/u/case.h +41 -0
data/ext/u/data/attributes.h +3070 -0
data/ext/u/data/bidi-mirroring.h +373 -0
data/ext/u/data/canonical-combining-class.h +2157 -0
data/ext/u/data/case-folding.h +171 -0
data/ext/u/data/cased.h +42 -0
data/ext/u/data/compose.h +1714 -0
data/ext/u/data/constants.h +17 -0
data/ext/u/data/decompose.h +9356 -0
data/ext/u/data/general-category.h +28959 -0
data/ext/u/data/grapheme-break.h +13201 -0
data/ext/u/data/line-break.h +26501 -0
data/ext/u/data/normalization-quick-check.h +3002 -0
data/ext/u/data/script.h +2928 -0
data/ext/u/data/soft-dotted.h +55 -0
data/ext/u/data/title-table.h +41 -0
data/ext/u/data/types.h +11117 -0
data/ext/u/data/wide-cjk.h +197 -0
data/ext/u/data/wide.h +59 -0
data/ext/u/data/word-break.h +10001 -0
data/ext/u/depend +281 -0
data/ext/u/extconf.rb +158 -0
data/ext/u/output.h +51 -0
data/ext/{encoding/character/utf-8 → u}/private.c +11 -15
data/ext/u/private.h +58 -0
data/ext/u/rb_includes.h +10 -0
data/ext/u/rb_private.c +98 -0
data/ext/u/rb_private.h +67 -0
data/ext/u/rb_u.c +251 -0
data/ext/u/rb_u_buffer.c +443 -0
data/ext/u/rb_u_buffer.h +24 -0
data/ext/u/rb_u_re.c +43 -0
data/ext/u/rb_u_re.h +15 -0
data/ext/u/rb_u_string.c +478 -0
data/ext/u/rb_u_string.h +173 -0
data/ext/u/rb_u_string_alnum.c +10 -0
data/ext/u/rb_u_string_alpha.c +10 -0
data/ext/u/rb_u_string_aref.c +142 -0
data/ext/u/rb_u_string_ascii_only.c +13 -0
data/ext/u/rb_u_string_assigned.c +10 -0
data/ext/u/rb_u_string_b.c +18 -0
data/ext/u/rb_u_string_bytesize.c +10 -0
data/ext/u/rb_u_string_byteslice.c +103 -0
data/ext/u/rb_u_string_canonical_combining_class.c +33 -0
data/ext/u/rb_u_string_case_ignorable.c +25 -0
data/ext/u/rb_u_string_casecmp.c +61 -0
data/ext/u/rb_u_string_cased.c +17 -0
data/ext/u/rb_u_string_chomp.c +107 -0
data/ext/u/rb_u_string_chop.c +33 -0
data/ext/u/rb_u_string_chr.c +9 -0
data/ext/u/rb_u_string_cntrl.c +10 -0
data/ext/u/rb_u_string_collate.c +46 -0
data/ext/u/rb_u_string_collation_key.c +18 -0
data/ext/u/rb_u_string_count.c +38 -0
data/ext/u/rb_u_string_defined.c +10 -0
data/ext/u/rb_u_string_delete.c +62 -0
data/ext/u/rb_u_string_digit.c +10 -0
data/ext/u/rb_u_string_downcase.c +13 -0
data/ext/u/rb_u_string_dump.c +153 -0
data/ext/u/rb_u_string_each_byte.c +46 -0
data/ext/u/rb_u_string_each_char.c +49 -0
data/ext/u/rb_u_string_each_codepoint.c +45 -0
data/ext/u/rb_u_string_each_grapheme_cluster.c +36 -0
data/ext/u/rb_u_string_each_line.c +142 -0
data/ext/u/rb_u_string_each_word.c +34 -0
data/ext/u/rb_u_string_empty.c +11 -0
data/ext/u/rb_u_string_end_with.c +31 -0
data/ext/u/rb_u_string_eql.c +30 -0
data/ext/u/rb_u_string_equal.c +33 -0
data/ext/u/rb_u_string_foldcase.c +12 -0
data/ext/u/rb_u_string_folded.c +13 -0
data/ext/u/rb_u_string_format.c +1745 -0
data/ext/u/rb_u_string_general_category.c +109 -0
data/ext/u/rb_u_string_getbyte.c +21 -0
data/ext/u/rb_u_string_graph.c +21 -0
data/ext/u/rb_u_string_grapheme_break.c +61 -0
data/ext/u/rb_u_string_gsub.c +164 -0
data/ext/u/rb_u_string_hash.c +10 -0
data/ext/u/rb_u_string_hex.c +9 -0
data/ext/u/rb_u_string_include.c +10 -0
data/ext/u/rb_u_string_index.c +110 -0
data/ext/u/rb_u_string_inspect.c +189 -0
data/ext/u/rb_u_string_internal_tr.c +148 -0
data/ext/u/rb_u_string_internal_tr.h +29 -0
data/ext/u/rb_u_string_justify.c +169 -0
data/ext/u/rb_u_string_length.c +10 -0
data/ext/u/rb_u_string_line_break.c +115 -0
data/ext/u/rb_u_string_lower.c +13 -0
data/ext/u/rb_u_string_lstrip.c +24 -0
data/ext/u/rb_u_string_match.c +65 -0
data/ext/u/rb_u_string_mirror.c +16 -0
data/ext/u/rb_u_string_newline.c +21 -0
data/ext/u/rb_u_string_normalize.c +70 -0
data/ext/u/rb_u_string_normalized.c +28 -0
data/ext/u/rb_u_string_oct.c +11 -0
data/ext/u/rb_u_string_ord.c +14 -0
data/ext/u/rb_u_string_partition.c +80 -0
data/ext/u/rb_u_string_plus.c +33 -0
data/ext/u/rb_u_string_print.c +10 -0
data/ext/u/rb_u_string_punct.c +10 -0
data/ext/u/rb_u_string_reverse.c +13 -0
data/ext/u/rb_u_string_rindex.c +104 -0
data/ext/u/rb_u_string_rpartition.c +81 -0
data/ext/u/rb_u_string_rstrip.c +29 -0
data/ext/u/rb_u_string_scan.c +109 -0
data/ext/u/rb_u_string_script.c +253 -0
data/ext/u/rb_u_string_soft_dotted.c +13 -0
data/ext/u/rb_u_string_space.c +24 -0
data/ext/u/rb_u_string_split.c +245 -0
data/ext/u/rb_u_string_squeeze.c +75 -0
data/ext/u/rb_u_string_start_with.c +31 -0
data/ext/u/rb_u_string_strip.c +36 -0
data/ext/u/rb_u_string_sub.c +147 -0
data/ext/u/rb_u_string_times.c +35 -0
data/ext/u/rb_u_string_title.c +10 -0
data/ext/u/rb_u_string_titlecase.c +13 -0
data/ext/u/rb_u_string_to_i.c +45 -0
data/ext/u/rb_u_string_to_inum.c +364 -0
data/ext/u/rb_u_string_to_inum.h +1 -0
data/ext/u/rb_u_string_to_str.c +17 -0
data/ext/u/rb_u_string_to_sym.c +12 -0
data/ext/u/rb_u_string_tr.c +290 -0
data/ext/u/rb_u_string_upcase.c +12 -0
data/ext/u/rb_u_string_upper.c +13 -0
data/ext/u/rb_u_string_valid.c +10 -0
data/ext/u/rb_u_string_valid_encoding.c +12 -0
data/ext/u/rb_u_string_wide.c +21 -0
data/ext/u/rb_u_string_wide_cjk.c +21 -0
data/ext/u/rb_u_string_width.c +19 -0
data/ext/u/rb_u_string_word_break.c +63 -0
data/ext/u/rb_u_string_xdigit.c +22 -0
data/ext/u/rb_u_string_zero_width.c +16 -0
data/ext/u/titled.c +55 -0
data/ext/u/titled.h +1 -0
data/ext/u/u.c +23 -0
data/ext/u/u.h +458 -0
data/ext/u/u_char_canonical_combining_class.c +31 -0
data/ext/u/u_char_digit_value.c +21 -0
data/ext/u/u_char_downcase.c +27 -0
data/ext/u/u_char_general_category.c +31 -0
data/ext/u/u_char_grapheme_break.c +28 -0
data/ext/u/u_char_isalnum.c +24 -0
data/ext/u/u_char_isalpha.c +21 -0
data/ext/u/u_char_isassigned.c +16 -0
data/ext/u/u_char_iscased.c +22 -0
data/ext/u/u_char_iscaseignorable.c +29 -0
data/ext/u/u_char_iscntrl.c +17 -0
data/ext/u/u_char_isdefined.c +15 -0
data/ext/u/u_char_isdigit.c +16 -0
data/ext/u/u_char_isgraph.c +22 -0
data/ext/u/u_char_islower.c +16 -0
data/ext/u/u_char_isnewline.c +24 -0
data/ext/u/u_char_isprint.c +21 -0
data/ext/u/u_char_ispunct.c +27 -0
data/ext/u/u_char_issoftdotted.c +18 -0
data/ext/u/u_char_isspace.c +28 -0
data/ext/u/u_char_isupper.c +16 -0
data/ext/u/u_char_isvalid.c +18 -0
data/ext/u/u_char_iswide.c +18 -0
data/ext/u/u_char_iswide_cjk.c +22 -0
data/ext/u/u_char_isxdigit.c +27 -0
data/ext/u/u_char_iszerowidth.c +29 -0
data/ext/u/u_char_line_break.c +29 -0
data/ext/u/u_char_mirror.c +16 -0
data/ext/u/u_char_normalized.c +23 -0
data/ext/u/u_char_script.c +41 -0
data/ext/u/u_char_to_u.c +48 -0
data/ext/u/u_char_upcase.c +24 -0
data/ext/u/u_char_width.c +12 -0
data/ext/u/u_char_word_break.c +28 -0
data/ext/u/u_char_xdigit_value.c +31 -0
data/ext/u/u_collate.c +83 -0
data/ext/u/u_collation_key.c +132 -0
data/ext/u/u_decode.c +156 -0
data/ext/u/u_downcase.c +201 -0
data/ext/u/u_foldcase.c +68 -0
data/ext/u/u_grapheme_clusters.c +57 -0
data/ext/u/u_has_prefix.c +27 -0
data/ext/u/u_index.c +93 -0
data/ext/u/u_is_ascii_only.c +33 -0
data/ext/u/u_locale.c +40 -0
data/ext/u/u_locale.h +14 -0
data/ext/u/u_mirror.c +20 -0
data/ext/u/u_n_bytes.c +16 -0
data/ext/u/u_n_chars.c +43 -0
data/ext/u/u_normalize.c +232 -0
data/ext/u/u_normalized.c +28 -0
data/ext/u/u_offset_to_pointer.c +62 -0
data/ext/u/u_pointer_to_offset.c +23 -0
data/ext/u/u_recode.c +73 -0
data/ext/u/u_reverse.c +21 -0
data/ext/u/u_rindex.c +132 -0
data/ext/u/u_titlecase.c +68 -0
data/ext/u/u_upcase.c +89 -0
data/ext/u/u_width.c +35 -0
data/ext/u/u_words.c +82 -0
data/ext/u/yield.h +27 -0
data/lib/u-1.0.rb +20 -0
data/lib/u-1.0/buffer.rb +10 -0
data/lib/u-1.0/string.rb +9 -0
data/lib/u-1.0/version.rb +287 -0
data/test/unit/case.rb +2080 -0
data/test/unit/foldcase.rb +1136 -0
data/test/unit/graphemebreak.rb +407 -0
data/test/unit/normalize.rb +367545 -0
data/test/unit/u-1.0.rb +10 -0
data/test/unit/u-1.0/buffer.rb +52 -0
data/test/unit/u-1.0/string.rb +1439 -0
data/test/unit/{u.rb → u-1.0/version.rb} +0 -1
data/test/unit/wordbreak.rb +1083 -0
metadata +603 -148
data/README +0 -38
data/Rakefile +0 -64
data/ext/encoding/character/utf-8/break.c +0 -25
data/ext/encoding/character/utf-8/data/break.h +0 -22931
data/ext/encoding/character/utf-8/data/character-tables.h +0 -14358
data/ext/encoding/character/utf-8/data/compose.h +0 -1607
data/ext/encoding/character/utf-8/data/decompose.h +0 -10926
data/ext/encoding/character/utf-8/data/generate-unicode-data.rb +0 -1070
data/ext/encoding/character/utf-8/decompose.c +0 -444
data/ext/encoding/character/utf-8/depend +0 -65
data/ext/encoding/character/utf-8/extconf.rb +0 -67
data/ext/encoding/character/utf-8/private.h +0 -51
data/ext/encoding/character/utf-8/properties.c +0 -1056
data/ext/encoding/character/utf-8/rb_includes.h +0 -19
data/ext/encoding/character/utf-8/rb_methods.h +0 -49
data/ext/encoding/character/utf-8/rb_private.h +0 -52
data/ext/encoding/character/utf-8/rb_utf_aref.c +0 -111
data/ext/encoding/character/utf-8/rb_utf_aset.c +0 -105
data/ext/encoding/character/utf-8/rb_utf_casecmp.c +0 -24
data/ext/encoding/character/utf-8/rb_utf_chomp.c +0 -114
data/ext/encoding/character/utf-8/rb_utf_chop.c +0 -44
data/ext/encoding/character/utf-8/rb_utf_collate.c +0 -13
data/ext/encoding/character/utf-8/rb_utf_count.c +0 -30
data/ext/encoding/character/utf-8/rb_utf_delete.c +0 -60
data/ext/encoding/character/utf-8/rb_utf_downcase.c +0 -13
data/ext/encoding/character/utf-8/rb_utf_each_char.c +0 -27
data/ext/encoding/character/utf-8/rb_utf_foldcase.c +0 -13
data/ext/encoding/character/utf-8/rb_utf_hex.c +0 -14
data/ext/encoding/character/utf-8/rb_utf_index.c +0 -50
data/ext/encoding/character/utf-8/rb_utf_insert.c +0 -48
data/ext/encoding/character/utf-8/rb_utf_internal_bignum.c +0 -332
data/ext/encoding/character/utf-8/rb_utf_internal_bignum.h +0 -12
data/ext/encoding/character/utf-8/rb_utf_internal_tr.c +0 -142
data/ext/encoding/character/utf-8/rb_utf_internal_tr.h +0 -41
data/ext/encoding/character/utf-8/rb_utf_justify.c +0 -96
data/ext/encoding/character/utf-8/rb_utf_length.c +0 -14
data/ext/encoding/character/utf-8/rb_utf_lstrip.c +0 -41
data/ext/encoding/character/utf-8/rb_utf_normalize.c +0 -51
data/ext/encoding/character/utf-8/rb_utf_oct.c +0 -14
data/ext/encoding/character/utf-8/rb_utf_reverse.c +0 -13
data/ext/encoding/character/utf-8/rb_utf_rindex.c +0 -88
data/ext/encoding/character/utf-8/rb_utf_rstrip.c +0 -51
data/ext/encoding/character/utf-8/rb_utf_squeeze.c +0 -70
data/ext/encoding/character/utf-8/rb_utf_strip.c +0 -27
data/ext/encoding/character/utf-8/rb_utf_to_i.c +0 -25
data/ext/encoding/character/utf-8/rb_utf_tr.c +0 -250
data/ext/encoding/character/utf-8/rb_utf_upcase.c +0 -13
data/ext/encoding/character/utf-8/tables.h +0 -38
data/ext/encoding/character/utf-8/unicode.c +0 -319
data/ext/encoding/character/utf-8/unicode.h +0 -216
data/ext/encoding/character/utf-8/utf.c +0 -1334
data/lib/encoding/character/utf-8.rb +0 -201
data/lib/u.rb +0 -16
data/lib/u/string.rb +0 -185
data/lib/u/version.rb +0 -5
data/test/unit/u/string.rb +0 -91

data/ext/u/rb_u_string_soft_dotted.c ADDED

@@ -0,0 +1,13 @@
+#include "rb_includes.h"
+/* @overload soft_dotted?
+ *   @return [Boolean] True if this {U::String} only contains soft-dotted
+ *     characters
+ *   @note Soft-dotted characters have the soft-dotted property and thus lose
+ *     their dot if an accent is applied to them, for example, ‘i’ and ‘j’.
+ *   @see http://unicode.org/review/pr-11.html Unicode Public Review Issue #11 */
+VALUE
+rb_u_string_soft_dotted(VALUE self)
+{
+        return _rb_u_character_test(self, u_char_issoftdotted);
+}

data/ext/u/rb_u_string_space.c ADDED

@@ -0,0 +1,24 @@
+#include "rb_includes.h"
+/* @overload space?
+ *
+ *   Returns true if the receiver contains only “space” characters.  Space
+ *   characters are those in the general category Separator:
+ *
+ *   * Separator, space (Zs)
+ *   * Separator, line (Zl)
+ *   * Separator, paragraph (Zp)
+ *
+ *   such as ‘ ’, or a control character acting as such, namely
+ *
+ *   * U+0009 CHARACTER TABULATION (HT)
+ *   * U+000A LINE FEED (LF)
+ *   * U+000C FORM FEED (FF)
+ *   * U+000D CARRIAGE RETURN (CR)
+ *
+ *   @return [Boolean] */
+VALUE
+rb_u_string_space(VALUE self)
+{
+        return _rb_u_character_test(self, u_char_isspace);
+}

data/ext/u/rb_u_string_split.c ADDED

@@ -0,0 +1,245 @@
+#include "rb_includes.h"
+#include "rb_u_re.h"
+static VALUE
+rb_u_string_split_trim(VALUE result, bool limit_given, int limit)
+{
+        if (limit_given || limit != 0)
+                return result;
+        long length;
+        while ((length = RARRAY_LEN(result)) > 0 &&
+               USTRING_LENGTH(RVAL2USTRING(RARRAY_PTR(result)[length - 1])) == 0)
+                rb_ary_pop(result);
+        return result;
+}
+static VALUE
+rb_u_string_split_rest(VALUE self, long offset, bool limit_given, int limit, VALUE result)
+{
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        long length = USTRING_LENGTH(string);
+        if (length > 0 && (limit_given || length > offset || limit < 0))
+                rb_ary_push(result,
+                            length == offset ?
+                                rb_u_string_new_empty(self) :
+                                rb_u_string_new_subsequence(self,
+                                                            offset,
+                                                            length - offset));
+        return rb_u_string_split_trim(result, limit_given, limit);
+}
+static VALUE
+rb_u_string_split_awk(VALUE self, bool limit_given, int limit)
+{
+        VALUE result = rb_ary_new();
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        const char *begin = USTRING_STR(string);
+        const char *p = begin;
+        const char *end = USTRING_END(string);
+        int i = 1;
+        while (p < end) {
+                const char *q;
+                while (p < end && u_char_isspace(u_decode(&q, p, end)))
+                        p = q;
+                if (p == end || (limit_given && i >= limit))
+                        break;
+                i++;
+                q = p;
+                const char *r;
+                while (q < end && !u_char_isspace(u_decode(&r, q, end)))
+                        q = r;
+                rb_ary_push(result,
+                            rb_u_string_new_subsequence(self,
+                                                        p - begin,
+                                                        q - p));
+                p = q;
+        }
+        return rb_u_string_split_rest(self, p - begin, limit_given, limit, result);
+}
+static VALUE
+rb_u_string_split_string(VALUE self, VALUE rbseparator, bool limit_given, int limit)
+{
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        const struct rb_u_string *separator = RVAL2USTRING_ANY(rbseparator);
+        const char *begin = USTRING_STR(string);
+        const char *p = begin;
+        const char *end = USTRING_END(string);
+        const char *s_p = USTRING_STR(separator);
+        long s_len = USTRING_LENGTH(separator);
+        rb_u_validate(p, USTRING_LENGTH(string));
+        rb_u_validate(s_p, s_len);
+        VALUE result = rb_ary_new();
+        /* TODO: Better variable name. */
+        long offset;
+        for (int i = 1; (!limit_given || i < limit) && p < end; i++) {
+                if ((offset = rb_u_memsearch(s_p, s_len, p, end - p)) < 0)
+                        break;
+                rb_ary_push(result, rb_u_string_new_subsequence(self, p - begin, offset));
+                p += offset + s_len;
+        }
+        return rb_u_string_split_rest(self, p - begin, limit_given, limit, result);
+}
+static void
+rb_u_string_split_pattern_push_registers(VALUE self,
+                                         struct re_registers *registers,
+                                         VALUE result)
+{
+        for (int i = 1; i < registers->num_regs; i++) {
+                if (registers->beg[i] == -1)
+                        continue;
+                rb_ary_push(result,
+                            registers->beg[i] == registers->end[i] ?
+                                rb_u_string_new_empty(self) :
+                                rb_u_string_new_subsequence(self,
+                                                            registers->beg[i],
+                                                            registers->end[i] - registers->beg[i]));
+        }
+}
+static VALUE
+rb_u_string_split_pattern(VALUE self, VALUE pattern, bool limit_given, int limit)
+{
+        VALUE str = rb_str_to_str(self);
+        const char *begin = RSTRING_PTR(str);
+        const char *p = begin;
+        const char *end = RSTRING_END(str);
+        VALUE result = rb_ary_new();
+        bool last_was_empty = false;
+        long start = 0;
+        /* TODO: Better variable name. */
+        long offset;
+        int i = 1;
+        while ((offset = rb_reg_search(pattern, str, start, 0)) >= 0) {
+                struct re_registers *registers = RMATCH_REGS(rb_backref_get());
+                if (start == offset && registers->beg[0] == registers->end[0]) {
+                        if (begin == NULL) {
+                                rb_ary_push(result, rb_u_string_new_empty(self));
+                                break;
+                        } else if (last_was_empty) {
+                                const char *q;
+                                u_decode(&q, p, end);
+                                rb_ary_push(result,
+                                            rb_u_string_new_subsequence(self,
+                                                                        p - begin,
+                                                                        q - p));
+                        } else {
+                                if (begin + start == end)
+                                        start++;
+                                else {
+                                        const char *q;
+                                        u_decode(&q, p, end);
+                                        start += q - p;
+                                }
+                                last_was_empty = true;
+                                continue;
+                        }
+                } else {
+                        rb_ary_push(result,
+                                    rb_u_string_new_subsequence(self,
+                                                                p - begin,
+                                                                offset - (p - begin)));
+                        start = registers->end[0];
+                }
+                last_was_empty = false;
+                p = begin + start;
+                rb_u_string_split_pattern_push_registers(self, registers, result);
+                i++;
+                if (limit_given && i == limit)
+                        break;
+        }
+        return rb_u_string_split_rest(self, p - begin, limit_given, limit, result);
+}
+/* @overload split(pattern = $;, limit = 0)
+ *
+ *   Returns the receiver split into LIMIT substrings separated by PATTERN,
+ *   each inheriting any taint and untrust.
+ *
+ *   If PATTERN = `$;` = nil or PATTERN = `' '`, splits according to AWK rules,
+ *   that is, any {#space?} prefix is skipped, then substrings are separated by
+ *   non-empty {#space?} substrings.
+ *
+ *   If LIMIT < 0, then no limit is imposed and trailing {#empty?} substrings
+ *   aren’t removed.
+ *
+ *   If LIMIT = 0, then no limit is imposed and trailing {#empty?} substrings
+ *   are removed.
+ *
+ *   If LIMIT = 1, then, if {#length} = 0, the result will be empty, otherwise
+ *   it will consist of the receiver only.
+ *
+ *   If LIMIT > 1, then the receiver is split into at most LIMIT substrings.
+ *
+ *   @param [Regexp, #to_str] pattern
+ *   @param [#to_int] limit
+ *   @return [Array<U::String>] */
+VALUE
+rb_u_string_split_m(int argc, VALUE *argv, VALUE self)
+{
+        VALUE rbpattern, rblimit;
+        int limit = 0;
+        bool limit_given;
+        if (rb_scan_args(argc, argv, "02", &rbpattern, &rblimit) == 2)
+                limit = NUM2INT(rblimit);
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        if (limit == 1) {
+                if (USTRING_LENGTH(string) == 0)
+                        return rb_ary_new2(0);
+                return rb_ary_new3(1, self);
+        }
+        limit_given = !NIL_P(rblimit) && limit >= 0;
+        if (NIL_P(rbpattern) && NIL_P(rb_fs))
+                return rb_u_string_split_awk(self, limit_given, limit);
+        else if (NIL_P(rbpattern))
+                rbpattern = rb_fs;
+        if (TYPE(rbpattern) != T_STRING && !RTEST(rb_obj_is_kind_of(rbpattern, rb_cUString)))
+                return rb_u_string_split_pattern(self,
+                                                 rb_u_pattern_argument(rbpattern, true),
+                                                 limit_given,
+                                                 limit);
+        const struct rb_u_string *pattern = RVAL2USTRING_ANY(rbpattern);
+        const char *p = USTRING_STR(pattern);
+        long length = USTRING_LENGTH(pattern);
+        if (length == 0)
+                return rb_u_string_split_pattern(self,
+                                                 rb_reg_regcomp(rb_str_to_str(rbpattern)),
+                                                 limit_given,
+                                                 limit);
+        else if (length == 1 && *p == ' ')
+                return rb_u_string_split_awk(self, limit_given, limit);
+        else
+                return rb_u_string_split_string(self, rbpattern, limit_given, limit);
+}

data/ext/u/rb_u_string_squeeze.c ADDED

@@ -0,0 +1,75 @@
+#include "rb_includes.h"
+#include "rb_u_string_internal_tr.h"
+static long
+rb_u_string_squeeze_loop(const struct rb_u_string *string, struct tr_table *table,
+                         char *result)
+{
+        long count = 0;
+        const char *p = USTRING_STR(string);
+        const char *end = USTRING_END(string);
+        uint32_t previous = U_N_CODEPOINTS;
+        char *base = result;
+        while (p < end) {
+                const char *q;
+                uint32_t c = u_decode(&q, p, end);
+                if (c != previous ||
+                    (table != NULL && !tr_table_lookup(table, c))) {
+                        long run = q - p;
+                        if (base != NULL) {
+                                memcpy(base, p, run);
+                                base += run;
+                        }
+                        count += run;
+                        previous = c;
+                }
+                p = q;
+        }
+        return count;
+}
+/* @overload squeeze(*sets)
+ *
+ *   Returns the receiver, replacing any substrings of {#length} > 1 consisting
+ *   of the same character _c_ with _c_, where _c_ is a member of the
+ *   intersection of the character sets in SETS, inheriting any taint and
+ *   untrust.
+ *
+ *   If SETS is empty, then the set of all Unicode characters is used.
+ *
+ *   The complement of all Unicode characters and a given set of characters may
+ *   be specified by prefixing a non-empty set with ‘`^`’ (U+005E CIRCUMFLEX
+ *   ACCENT).
+ *
+ *   Any sequence of characters _a_-_b_ inside a set will expand to also
+ *   include all characters whose code points lay between those of _a_ and _b_.
+ *
+ *   @param [Array<U::String, #to_str>] sets
+ *   @return [U::String] */
+VALUE
+rb_u_string_squeeze(int argc, VALUE *argv, VALUE self)
+{
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        if (USTRING_LENGTH(string) == 0)
+                return Qnil;
+        struct tr_table table;
+        if (argc > 0)
+                tr_table_initialize_from_strings(&table, argc, argv);
+        struct tr_table *table_pointer = (argc > 0) ? &table : NULL;
+        long count = rb_u_string_squeeze_loop(string, table_pointer, NULL);
+        if (count == 0)
+                return self;
+        char *remaining = ALLOC_N(char, count + 1);
+        rb_u_string_squeeze_loop(string, table_pointer, remaining);
+        remaining[count] = '\0';
+        return rb_u_string_new_c_own(self, remaining, count);
+}

data/ext/u/rb_u_string_start_with.c ADDED

@@ -0,0 +1,31 @@
+#include "rb_includes.h"
+/* @overload start_with?(*prefixes)
+ *   @param [Array] prefixes
+ *   @return [Boolean] True if any element of PREFIXES that responds to #to_str
+ *     is a byte-level prefix of the receiver */
+VALUE
+rb_u_string_start_with(int argc, VALUE *argv, VALUE self)
+{
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        const char *p = USTRING_STR(string);
+        long p_length = USTRING_LENGTH(string);
+        for (int i = 0; i < argc; i++) {
+                VALUE tmp = rb_u_string_check_type(argv[i]);
+                if (NIL_P(tmp))
+                        continue;
+                const struct rb_u_string *other = RVAL2USTRING_ANY(tmp);
+                const char *q = USTRING_STR(other);
+                long q_length = USTRING_LENGTH(other);
+                if (p_length < q_length)
+                        continue;
+                if (memcmp(p, q, q_length) == 0)
+                        return Qtrue;
+        }
+        return Qfalse;
+}

data/ext/u/rb_u_string_strip.c ADDED

@@ -0,0 +1,36 @@
+#include "rb_includes.h"
+/* @return [U::String] The receiver with its maximum {#space?} prefix and
+ *   suffix removed, inheriting any taint and untrust
+ * @see #lstrip
+ * @see #rstrip */
+VALUE
+rb_u_string_strip(VALUE self)
+{
+        const struct rb_u_string *string = RVAL2USTRING(self);
+        const char *begin = USTRING_STR(string);
+        if (begin == NULL)
+                return self;
+        const char *end = USTRING_END(string);
+        const char *s = begin;
+        uint32_t c;
+        const char *t;
+        while (s < end && u_char_isspace(u_decode(&t, s, end)))
+                s = t;
+        t = end;
+        while (begin < t) {
+                const char *p;
+                c = u_decode_r(&p, begin, t);
+                if (c != '\0' && !u_char_isspace(c))
+                        break;
+                t = p;
+        }
+        if (s == begin && t == end)
+                return self;
+        return rb_u_string_new_c(self, s, t - s);
+}

data/ext/u/rb_u_string_sub.c ADDED

@@ -0,0 +1,147 @@
+#include "rb_includes.h"
+#include "rb_u_re.h"
+/* @overload sub(pattern, replacement)
+ *
+ *   Returns the receiver with the first match of PATTERN replaced by
+ *   REPLACEMENT, inheriting any taint and untrust from the receiver and from
+ *   REPLACEMENT, or nil if there’s no match.
+ *
+ *   The REPLACEMENT is used as a specification for what to replace matches
+ *   with:
+ *
+ *   <table>
+ *     <thead>
+ *       <tr><th>Specification</th><th>Replacement</th></tr>
+ *     </thead>
+ *     <tbody>
+ *       <tr>
+ *         <td><code>\1</code>, <code>\2</code>, …, <code>\</code><em>n</em></td>
+ *         <td>Numbered sub-match <em>n</em></td>
+ *       </tr>
+ *       <tr>
+ *         <td><code>\k&lt;</code><em>name</em><code>></code></td>
+ *         <td>Named sub-match <em>name</em></td>
+ *       </tr>
+ *     </tbody>
+ *   </table>
+ *
+ *   The Regexp special variables `$&`, `$'`, <code>$\`</code>, `$1`, `$2`, …,
+ *   `$`_n_ are updated accordingly.
+ *
+ *   @param [Regexp, #to_str] pattern
+ *   @param [#to_str] replacement
+ *   @return [U::String, nil]
+ *
+ * @overload sub(pattern, replacements)
+ *
+ *   Returns the receiver with the first match of PATTERN replaced by
+ *   REPLACEMENTS#[_match_], where _match_ is the matched substring, inheriting
+ *   any taint and untrust from the receiver, REPLACEMENTS, and
+ *   REPLACEMENTS#[_match_], or nil if there’s no match.
+ *
+ *   The Regexp special variables `$&`, `$'`, <code>$\`</code>, `$1`, `$2`, …,
+ *   `$`_n_ are updated accordingly.
+ *
+ *   @param [Regexp, #to_str] pattern
+ *   @param [#to_hash] replacements
+ *   @raise [Exception] Any error raised by REPLACEMENTS#default, if it gets
+ *     called
+ *   @return [U::String, nil]
+ *
+ * @overload sub(pattern){ |match| … }
+ *
+ *   Returns the receiver with all instances of PATTERN replaced by the results
+ *   of the given block, inheriting any taint and untrust from the receiver and
+ *   from the results of the given block, or nil if there’s no match.
+ *
+ *   The Regexp special variables `$&`, `$'`, <code>$\`</code>, `$1`, `$2`, …,
+ *   `$`_n_ are updated accordingly.
+ *
+ *   @param [Regexp, #to_str] pattern
+ *   @yieldparam [U::String] match
+ *   @yieldreturn [#to_str]
+ *   @return [U::String, nil] */
+VALUE
+rb_u_string_sub(int argc, VALUE *argv, VALUE self)
+{
+        VALUE pattern, replacement;
+        VALUE replacements = Qnil;
+        bool use_block = false;
+        bool tainted = false;
+        bool untrusted = false;
+        if (argc == 1)
+                use_block = true;
+        if (rb_scan_args(argc, argv, "11", &pattern, &replacement) == 2) {
+                replacements = rb_check_convert_type(replacement, T_HASH,
+                                                     "Hash", "to_hash");
+                if (NIL_P(replacements))
+                        StringValue(replacement);
+                if (OBJ_TAINTED(replacement))
+                        tainted = true;
+                if (OBJ_UNTRUSTED(replacement))
+                        untrusted = true;
+        }
+        pattern = rb_u_pattern_argument(pattern, true);
+        VALUE str = rb_str_to_str(self);
+        long begin = rb_reg_search(pattern, str, 0, 0);
+        if (begin < 0)
+                return Qnil;
+        VALUE match = rb_backref_get();
+        struct re_registers *registers = RMATCH_REGS(match);
+        VALUE result;
+        if (use_block || !NIL_P(replacements)) {
+                if (use_block) {
+                        VALUE ustr = rb_u_string_new_rb(rb_reg_nth_match(0, match));
+                        result = rb_u_string_object_as_string(rb_yield(ustr));
+                } else {
+                        VALUE ustr = rb_u_string_new_c(self,
+                                                       RSTRING_PTR(str) + registers->beg[0],
+                                                       registers->end[0] - registers->beg[0]);
+                        result = rb_u_string_object_as_string(rb_hash_aref(replacements, ustr));
+                }
+        } else
+                result =
+#ifdef HAVE_RB_REG_REGSUB4
+                        rb_reg_regsub(replacement, str, registers, pattern);
+#else
+                        rb_reg_regsub(replacement, str, registers);
+#endif
+        if (OBJ_TAINTED(result))
+                tainted = true;
+        if (OBJ_UNTRUSTED(result))
+                untrusted = true;
+        const struct rb_u_string *value = RVAL2USTRING_ANY(result);
+        size_t length = registers->beg[0] +
+                USTRING_LENGTH(value) +
+                (RSTRING_LEN(str) - registers->end[0]);
+        char *base = ALLOC_N(char, length + 1);
+        MEMCPY(base,
+               RSTRING_PTR(str),
+               char,
+               registers->beg[0]);
+        MEMCPY(base + registers->beg[0],
+               USTRING_STR(value),
+               char,
+               USTRING_LENGTH(value));
+        MEMCPY(base + registers->beg[0] + USTRING_LENGTH(value),
+               RSTRING_PTR(str) + registers->end[0],
+               char,
+               RSTRING_LEN(str) - registers->end[0]);
+        base[length] = '\0';
+        VALUE substituted = rb_u_string_new_c_own(self, base, length);
+        if (tainted)
+                OBJ_TAINT(substituted);
+        if (untrusted)
+                OBJ_UNTRUST(substituted);
+        return substituted;
+}