RubyGems - character_set - Versions diffs - 1.4.0 → 1.8.0 - Mend

character_set 1.4.0 → 1.8.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (49) hide show

checksums.yaml +4 -4
data/.gitattributes +1 -1
data/.github/workflows/gouteur.yml +20 -0
data/.github/workflows/lint.yml +29 -0
data/.github/workflows/tests.yml +28 -0
data/.gitignore +1 -0
data/.gouteur.yml +2 -0
data/.rubocop.yml +20 -0
data/BENCHMARK.md +35 -31
data/CHANGELOG.md +64 -1
data/Gemfile +15 -0
data/LICENSE.txt +1 -1
data/README.md +25 -9
data/Rakefile +2 -120
data/character_set.gemspec +0 -10
data/ext/character_set/character_set.c +123 -121
data/ext/character_set/unicode_casefold_table.h +44 -1
data/lib/character_set/core_ext/regexp_ext.rb +9 -1
data/lib/character_set/core_ext/string_ext.rb +2 -2
data/lib/character_set/expression_converter.rb +40 -56
data/lib/character_set/parser.rb +8 -4
data/lib/character_set/predefined_sets/assigned.cps +110 -78
data/lib/character_set/predefined_sets/emoji.cps +16 -14
data/lib/character_set/predefined_sets.rb +11 -0
data/lib/character_set/ruby_fallback/character_set_methods.rb +17 -21
data/lib/character_set/ruby_fallback/set_methods.rb +9 -16
data/lib/character_set/ruby_fallback/vendored_set_classes.rb +385 -0
data/lib/character_set/ruby_fallback.rb +18 -2
data/lib/character_set/set_method_adapters.rb +4 -3
data/lib/character_set/shared_methods.rb +25 -11
data/lib/character_set/version.rb +1 -1
data/tasks/benchmark.rake +20 -0
data/{benchmarks → tasks/benchmarks}/delete_in.rb +5 -1
data/{benchmarks → tasks/benchmarks}/keep_in.rb +5 -1
data/tasks/benchmarks/shared.rb +28 -0
data/tasks/sync_casefold_data.rake +20 -0
data/tasks/sync_predefined_sets.rake +9 -0
data/tasks/sync_ruby_spec.rake +65 -0
metadata +29 -146
data/.travis.yml +0 -9
data/benchmarks/shared.rb +0 -26
/data/{benchmarks → tasks/benchmarks}/count_in.rb +0 -0
/data/{benchmarks → tasks/benchmarks}/cover.rb +0 -0
/data/{benchmarks → tasks/benchmarks}/scan.rb +0 -0
/data/{benchmarks → tasks/benchmarks}/used_by.rb +0 -0
/data/{benchmarks → tasks/benchmarks}/z_add.rb +0 -0
/data/{benchmarks → tasks/benchmarks}/z_delete.rb +0 -0
/data/{benchmarks → tasks/benchmarks}/z_merge.rb +0 -0
/data/{benchmarks → tasks/benchmarks}/z_minmax.rb +0 -0

data/ext/character_set/character_set.c CHANGED Viewed

@@ -82,7 +82,11 @@ static const rb_data_type_t cs_type = {
         .dsize = cs_memsize,
     },
     .data = NULL,
+#ifdef RUBY_TYPED_FROZEN_SHAREABLE
+    .flags = RUBY_TYPED_FREE_IMMEDIATELY | RUBY_TYPED_FROZEN_SHAREABLE,
+#else
     .flags = RUBY_TYPED_FREE_IMMEDIATELY,
+#endif
 };
 static inline VALUE
@@ -216,6 +220,7 @@ cs_method_hash(VALUE self)
   cs_cp cp, len, hash, four_byte_value;
   cs_ar *cps;
   cps = cs_fetch_cps(self, &len);
+  four_byte_value = 0;
   hash = 17;
   for (cp = 0; cp < len; cp++)
@@ -314,9 +319,9 @@ cs_method_minmax(VALUE self)
     cs_cp cp, alen, blen;                                        \
     cs_ar *acps, *bcps;                                          \
     struct cs_data *new_data;                                    \
-    new_cs = cs_alloc(RBASIC(self)->klass, &new_data);           \
     acps = cs_fetch_cps(cs_a, &alen);                            \
     bcps = cs_fetch_cps(cs_b, &blen);                            \
+    new_cs = cs_alloc(RBASIC(self)->klass, &new_data);           \
     for (cp = 0; cp < UNICODE_CP_COUNT; cp++)                    \
     {                                                            \
       if (tst_cp(acps, alen, cp) comp_op tst_cp(bcps, blen, cp)) \
@@ -371,22 +376,20 @@ cs_toggle_codepoint(VALUE cs, VALUE cp_num, int on, int return_nil_if_noop)
   cps = data->cps;
   len = data->len;
   cp = FIX2ULONG(cp_num);
-  if (return_nil_if_noop && (!tst_cp(cps, len, cp) == !on))
+  if (return_nil_if_noop && tst_cp(cps, len, cp) == on)
   {
     return Qnil;
   }
+  if (on)
+  {
+    set_cp(data, cp);
+  }
   else
   {
-    if (on)
-    {
-      set_cp(data, cp);
-    }
-    else
-    {
-      clr_cp(cps, len, cp);
-    }
-    return cs;
+    clr_cp(cps, len, cp);
   }
+  return cs;
 }
 static VALUE
@@ -570,7 +573,7 @@ cs_method_merge(VALUE self, VALUE other)
   {
     return cs_merge_cs(self, other);
   }
-  else if (TYPE(other) == T_ARRAY)
+  if (TYPE(other) == T_ARRAY)
   {
     return cs_merge_rb_array(self, other);
   }
@@ -672,6 +675,18 @@ cs_method_proper_superset_p(VALUE self, VALUE other)
   return (is_superset && is_proper) ? Qtrue : Qfalse;
 }
+static VALUE
+cs_method_spaceship_operator(VALUE self, VALUE other)
+{
+  if (cs_method_eql_p(self, other))
+    return INT2FIX(0);
+  if (cs_method_proper_subset_p(self, other))
+    return INT2FIX(-1);
+  if (cs_method_proper_superset_p(self, other))
+    return INT2FIX(1);
+  return Qnil;
+}
 // *******************************
 // `CharacterSet`-specific methods
 // *******************************
@@ -912,10 +927,10 @@ cs_method_ext_inversion(int argc, VALUE *argv, VALUE self)
   return new_cs;
 }
-typedef int (*str_cp_handler)(unsigned int, cs_ar *, cs_cp len, struct cs_data *data, VALUE *memo);
+typedef int (*str_cp_handler)(unsigned int, cs_ar *, cs_cp len, struct cs_data *data, VALUE memo);
 static inline int
-add_str_cp_to_arr(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE *memo)
+add_str_cp_to_arr(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE memo)
 {
   set_cp(data, str_cp);
   return 1;
@@ -962,7 +977,7 @@ cs_method_case_insensitive(VALUE self)
 }
 static inline VALUE
-each_sb_cp(VALUE str, str_cp_handler func, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE *memo)
+each_sb_cp(VALUE str, str_cp_handler func, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE memo)
 {
   long i, str_len;
   unsigned int str_cp;
@@ -981,21 +996,29 @@ each_sb_cp(VALUE str, str_cp_handler func, cs_ar *cp_arr, cs_cp len, struct cs_d
 }
 static inline VALUE
-each_mb_cp(VALUE str, str_cp_handler func, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE *memo)
+each_mb_cp(VALUE str, str_cp_handler func, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE memo)
 {
   int n;
   unsigned int str_cp;
   const char *ptr, *end;
-  rb_encoding *enc;
+  rb_encoding *utf8;
+  utf8 = rb_utf8_encoding();
+  if (rb_enc_get(str) == utf8)
+  {
+    str = rb_str_new_frozen(str);
+  }
+  else
+  {
+    str = rb_str_encode(str, rb_enc_from_encoding(utf8), 0, Qnil);
+  }
-  str = rb_str_new_frozen(str);
   ptr = RSTRING_PTR(str);
   end = RSTRING_END(str);
-  enc = rb_enc_get(str);
   while (ptr < end)
   {
-    str_cp = rb_enc_codepoint_len(ptr, end, &n, enc);
+    str_cp = rb_enc_codepoint_len(ptr, end, &n, utf8);
     if (!(*func)(str_cp, cp_arr, len, data, memo))
     {
       return Qfalse;
@@ -1026,12 +1049,13 @@ single_byte_optimizable(VALUE str)
 }
 static inline VALUE
-each_cp(VALUE str, str_cp_handler func, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE *memo)
+each_cp(VALUE str, str_cp_handler func, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE memo)
 {
   if (single_byte_optimizable(str))
   {
     return each_sb_cp(str, func, cp_arr, len, data, memo);
   }
   return each_mb_cp(str, func, cp_arr, len, data, memo);
 }
@@ -1045,22 +1069,23 @@ raise_arg_err_unless_string(VALUE val)
 }
 static VALUE
-cs_class_method_of(VALUE self, VALUE str)
+cs_class_method_of_string(VALUE self, VALUE string)
 {
   VALUE new_cs;
   struct cs_data *new_data;
+  raise_arg_err_unless_string(string);
   new_cs = cs_alloc(self, &new_data);
-  raise_arg_err_unless_string(str);
-  each_cp(str, add_str_cp_to_arr, 0, 0, new_data, 0);
+  each_cp(string, add_str_cp_to_arr, 0, 0, new_data, 0);
   return new_cs;
 }
 static inline int
-count_str_cp(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE *memo)
+count_str_cp(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE memo)
 {
   if (tst_cp(cp_arr, len, str_cp))
   {
-    *memo += 1;
+    *((VALUE *)memo) += 1;
   }
   return 1;
 }
@@ -1068,17 +1093,17 @@ count_str_cp(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_data *data
 static VALUE
 cs_method_count_in(VALUE self, VALUE str)
 {
-  VALUE count;
+  long count;
   struct cs_data *data;
   raise_arg_err_unless_string(str);
   data = cs_fetch_data(self);
   count = 0;
-  each_cp(str, count_str_cp, data->cps, data->len, data, &count);
-  return INT2NUM(count);
+  each_cp(str, count_str_cp, data->cps, data->len, data, (VALUE)&count);
+  return LONG2FIX(count);
 }
 static inline int
-str_cp_in_arr(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE *memo)
+str_cp_in_arr(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE memo)
 {
   return tst_cp(cp_arr, len, str_cp);
 }
@@ -1093,11 +1118,11 @@ cs_method_cover_p(VALUE self, VALUE str)
 }
 static inline int
-add_str_cp_to_str_arr(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE *memo)
+add_str_cp_to_str_arr(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE memo)
 {
   if (tst_cp(cp_arr, len, str_cp))
   {
-    rb_ary_push(memo[0], rb_enc_uint_chr((int)str_cp, (rb_encoding *)memo[1]));
+    rb_ary_push(memo, rb_enc_uint_chr((int)str_cp, rb_utf8_encoding()));
   }
   return 1;
 }
@@ -1105,18 +1130,17 @@ add_str_cp_to_str_arr(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_d
 static VALUE
 cs_method_scan(VALUE self, VALUE str)
 {
-  VALUE memo[2];
+  VALUE memo;
   struct cs_data *data;
   raise_arg_err_unless_string(str);
   data = cs_fetch_data(self);
-  memo[0] = rb_ary_new();
-  memo[1] = (VALUE)rb_enc_get(str);
+  memo = rb_ary_new();
   each_cp(str, add_str_cp_to_str_arr, data->cps, data->len, data, memo);
-  return memo[0];
+  return memo;
 }
 static inline int
-str_cp_not_in_arr(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE *memo)
+str_cp_not_in_arr(unsigned int str_cp, cs_ar *cp_arr, cs_cp len, struct cs_data *data, VALUE memo)
 {
   return !tst_cp(cp_arr, len, str_cp);
 }
@@ -1132,118 +1156,91 @@ cs_method_used_by_p(VALUE self, VALUE str)
   return only_uses_other_cps == Qfalse ? Qtrue : Qfalse;
 }
-static void
-cs_str_buf_cat(VALUE str, const char *ptr, long len)
-{
-  long total, olen;
-  char *sptr;
-  RSTRING_GETMEM(str, sptr, olen);
-  sptr = RSTRING(str)->as.heap.ptr;
-  olen = RSTRING(str)->as.heap.len;
-  total = olen + len;
-  memcpy(sptr + olen, ptr, len);
-  RSTRING(str)->as.heap.len = total;
-}
-#ifndef TERM_FILL
-#define TERM_FILL(ptr, termlen)                     \
-  do                                                \
-  {                                                 \
-    char *const term_fill_ptr = (ptr);              \
-    const int term_fill_len = (termlen);            \
-    *term_fill_ptr = '\0';                          \
-    if (__builtin_expect(!!(term_fill_len > 1), 0)) \
-      memset(term_fill_ptr, 0, term_fill_len);      \
-  } while (0)
-#endif
-static void
-cs_str_buf_terminate(VALUE str, rb_encoding *enc)
-{
-  char *ptr;
-  long len;
-  ptr = RSTRING(str)->as.heap.ptr;
-  len = RSTRING(str)->as.heap.len;
-  TERM_FILL(ptr + len, rb_enc_mbminlen(enc));
-}
+// partially based on rb_str_delete_bang
 static inline VALUE
 cs_apply_to_str(VALUE set, VALUE str, int delete, int bang)
 {
   cs_ar *cps;
-  cs_cp len;
-  rb_encoding *str_enc;
-  VALUE orig_len, new_str_buf;
-  int cp_len;
-  unsigned int str_cp;
-  const char *ptr, *end;
+  cs_cp cs_len;
+  VALUE orig_str_len;
+  rb_encoding *orig_enc, *utf8;
+  char *s, *send, *t;
+  int orig_was_utf8, cr;
   raise_arg_err_unless_string(str);
-  cps = cs_fetch_cps(set, &len);
+  orig_str_len = RSTRING_LEN(str);
+  if (orig_str_len == 0)
+  {
+    return bang ? Qnil : str;
+  }
-  orig_len = RSTRING_LEN(str);
-  if (orig_len < 1) // empty string, will never change
+  orig_enc = rb_enc_get(str);
+  utf8 = rb_utf8_encoding();
+  orig_was_utf8 = orig_enc == utf8;
+  if (!orig_was_utf8 && orig_enc != rb_usascii_encoding())
+  {
+    str = rb_str_encode(str, rb_enc_from_encoding(utf8), 0, Qnil);
+  }
+  else
   {
-    if (bang)
+    if (!bang)
     {
-      return Qnil;
+      str = rb_str_dup(str);
     }
-    return rb_str_dup(str);
   }
-  new_str_buf = rb_str_buf_new(orig_len);
-  str_enc = rb_enc_get(str);
-  rb_enc_associate(new_str_buf, str_enc);
-  rb_str_modify(new_str_buf);
-  ENC_CODERANGE_SET(new_str_buf, rb_enc_asciicompat(str_enc) ? ENC_CODERANGE_7BIT : ENC_CODERANGE_VALID);
+  cps = cs_fetch_cps(set, &cs_len);
+  rb_str_modify(str);
+  s = t = RSTRING_PTR(str);
+  send = RSTRING_END(str);
+  cr = ENC_CODERANGE_7BIT;
-  ptr = RSTRING_PTR(str);
-  end = RSTRING_END(str);
-  if (single_byte_optimizable(str))
+  while (s < send)
   {
-    while (ptr < end)
+    unsigned int c;
+    int clen;
+    if ((c = *(unsigned char *)s) < 0x80)
     {
-      str_cp = *ptr & 0xff;
-      if ((!tst_cp(cps, len, str_cp)) == delete)
+      if (tst_cp(cps, cs_len, c) != delete)
       {
-        cs_str_buf_cat(new_str_buf, ptr, 1);
+        if (t != s)
+          *t = c;
+        t++;
       }
-      ptr++;
+      s++;
     }
-  }
-  else // likely to be multibyte string
-  {
-    while (ptr < end)
+    else
     {
-      str_cp = rb_enc_codepoint_len(ptr, end, &cp_len, str_enc);
-      if ((!tst_cp(cps, len, str_cp)) == delete)
+      c = rb_enc_codepoint_len(s, send, &clen, utf8);
+      if (tst_cp(cps, cs_len, c) != delete)
       {
-        cs_str_buf_cat(new_str_buf, ptr, cp_len);
+        if (t != s)
+          rb_enc_mbcput(c, t, utf8);
+        t += clen;
+        if (cr == ENC_CODERANGE_7BIT)
+          cr = ENC_CODERANGE_VALID;
       }
-      ptr += cp_len;
+      s += clen;
     }
   }
-  cs_str_buf_terminate(new_str_buf, str_enc);
+  rb_str_set_len(str, t - RSTRING_PTR(str));
+  ENC_CODERANGE_SET(str, cr);
-  if (bang)
+  if (bang && (RSTRING_LEN(str) == (long)orig_str_len)) // string unchanged
   {
-    if (RSTRING_LEN(new_str_buf) == (long)orig_len) // string unchanged
-    {
-      return Qnil;
-    }
-    rb_str_shared_replace(str, new_str_buf);
+    return Qnil;
   }
-  else
+  if (!orig_was_utf8)
   {
-    RB_OBJ_WRITE(new_str_buf, &(RBASIC(new_str_buf))->klass, rb_obj_class(str));
-    // slightly cumbersome approach needed for compatibility with Ruby < 2.3:
-    RBASIC(new_str_buf)->flags |= (RBASIC(str)->flags & (FL_TAINT));
-    str = new_str_buf;
+    return rb_str_encode(str, rb_enc_from_encoding(orig_enc), 0, Qnil);
   }
   return str;
@@ -1285,6 +1282,10 @@ cs_method_allocated_length(VALUE self)
 void Init_character_set()
 {
+#ifdef HAVE_RB_EXT_RACTOR_SAFE
+  rb_ext_ractor_safe(true);
+#endif
   VALUE cs = rb_define_class("CharacterSet", rb_cObject);
   rb_define_alloc_func(cs, cs_method_allocate);
@@ -1335,11 +1336,12 @@ void Init_character_set()
   rb_define_method(cs, ">=", cs_method_superset_p, 1);
   rb_define_method(cs, "proper_superset?", cs_method_proper_superset_p, 1);
   rb_define_method(cs, ">", cs_method_proper_superset_p, 1);
+  rb_define_method(cs, "<=>", cs_method_spaceship_operator, 1);
   // `CharacterSet`-specific methods
   rb_define_singleton_method(cs, "from_ranges", cs_class_method_from_ranges, -2);
-  rb_define_singleton_method(cs, "of", cs_class_method_of, 1);
+  rb_define_singleton_method(cs, "of_string", cs_class_method_of_string, 1);
   rb_define_method(cs, "ranges", cs_method_ranges, 0);
   rb_define_method(cs, "sample", cs_method_sample, -1);

data/ext/character_set/unicode_casefold_table.h CHANGED Viewed

@@ -6,7 +6,7 @@ typedef struct casefold_mapping {
   unsigned long to;
 } casefold_mapping;
-#define CASEFOLD_COUNT 1383
+#define CASEFOLD_COUNT 1426
 static const casefold_mapping unicode_casefold_table[CASEFOLD_COUNT] = {
 {0x0041,0x0061},
@@ -564,6 +564,41 @@ static const casefold_mapping unicode_casefold_table[CASEFOLD_COUNT] = {
 {0x104D1,0x104F9},
 {0x104D2,0x104FA},
 {0x104D3,0x104FB},
+{0x10570,0x10597},
+{0x10571,0x10598},
+{0x10572,0x10599},
+{0x10573,0x1059A},
+{0x10574,0x1059B},
+{0x10575,0x1059C},
+{0x10576,0x1059D},
+{0x10577,0x1059E},
+{0x10578,0x1059F},
+{0x10579,0x105A0},
+{0x1057A,0x105A1},
+{0x1057C,0x105A3},
+{0x1057D,0x105A4},
+{0x1057E,0x105A5},
+{0x1057F,0x105A6},
+{0x10580,0x105A7},
+{0x10581,0x105A8},
+{0x10582,0x105A9},
+{0x10583,0x105AA},
+{0x10584,0x105AB},
+{0x10585,0x105AC},
+{0x10586,0x105AD},
+{0x10587,0x105AE},
+{0x10588,0x105AF},
+{0x10589,0x105B0},
+{0x1058A,0x105B1},
+{0x1058C,0x105B3},
+{0x1058D,0x105B4},
+{0x1058E,0x105B5},
+{0x1058F,0x105B6},
+{0x10590,0x105B7},
+{0x10591,0x105B8},
+{0x10592,0x105B9},
+{0x10594,0x105BB},
+{0x10595,0x105BC},
 {0x10A0,0x2D00},
 {0x10A1,0x2D01},
 {0x10A2,0x2D02},
@@ -1102,6 +1137,7 @@ static const casefold_mapping unicode_casefold_table[CASEFOLD_COUNT] = {
 {0x2C2C,0x2C5C},
 {0x2C2D,0x2C5D},
 {0x2C2E,0x2C5E},
+{0x2C2F,0x2C5F},
 {0x2C60,0x2C61},
 {0x2C62,0x026B},
 {0x2C63,0x1D7D},
@@ -1282,10 +1318,17 @@ static const casefold_mapping unicode_casefold_table[CASEFOLD_COUNT] = {
 {0xA7BA,0xA7BB},
 {0xA7BC,0xA7BD},
 {0xA7BE,0xA7BF},
+{0xA7C0,0xA7C1},
 {0xA7C2,0xA7C3},
 {0xA7C4,0xA794},
 {0xA7C5,0x0282},
 {0xA7C6,0x1D8E},
+{0xA7C7,0xA7C8},
+{0xA7C9,0xA7CA},
+{0xA7D0,0xA7D1},
+{0xA7D6,0xA7D7},
+{0xA7D8,0xA7D9},
+{0xA7F5,0xA7F6},
 {0xAB70,0x13A0},
 {0xAB71,0x13A1},
 {0xAB72,0x13A2},

data/lib/character_set/core_ext/regexp_ext.rb CHANGED Viewed

@@ -4,8 +4,16 @@ class CharacterSet
       def character_set
         CharacterSet.of_regexp(self)
       end
+      def covered_by_character_set?(other)
+        other.superset?(character_set)
+      end
+      def uses_character_set?(other)
+        other.intersect?(character_set)
+      end
     end
   end
 end
-::Regexp.send(:include, CharacterSet::CoreExt::RegexpExt)
+::Regexp.instance_eval { include CharacterSet::CoreExt::RegexpExt }

data/lib/character_set/core_ext/string_ext.rb CHANGED Viewed

@@ -2,7 +2,7 @@ class CharacterSet
   module CoreExt
     module StringExt
       def character_set
-        CharacterSet.of(self)
+        CharacterSet.of_string(self)
       end
       {
@@ -29,4 +29,4 @@ class CharacterSet
   end
 end
-::String.send(:include, CharacterSet::CoreExt::StringExt)
+::String.instance_eval { include CharacterSet::CoreExt::StringExt }

data/lib/character_set/expression_converter.rb CHANGED Viewed

@@ -4,100 +4,84 @@ class CharacterSet
     Error = Class.new(ArgumentError)
-    def convert(expression)
-      CharacterSet.require_optional_dependency('regexp_parser')
+    def convert(expression, to = CharacterSet, acc = [])
+      CharacterSet.require_optional_dependency('regexp_parser', __method__)
       case expression
-      when Regexp::Expression::Root
-        if expression.count != 1
-          raise Error, 'Pass a Regexp with exactly one expression, e.g. /[a-z]/'
-        end
-        convert(expression[0])
       when Regexp::Expression::CharacterSet
-        content = expression.map { |subexp| convert(subexp) }.reduce(:+)
-        expression.negative? ? content.inversion : content
+        content = expression.map { |subexp| convert(subexp, to) }.reduce(:+) || to[]
+        acc << (expression.negative? ? content.inversion : content)
       when Regexp::Expression::CharacterSet::Intersection
-        expression.map { |subexp| convert(subexp) }.reduce(:&)
-      when Regexp::Expression::CharacterSet::IntersectedSequence
-        expression.map { |subexp| convert(subexp) }.reduce(:+)
+        acc << expression.map { |subexp| convert(subexp, to) }.reduce(:&)
       when Regexp::Expression::CharacterSet::Range
-        start, finish = expression.map { |subexp| convert(subexp) }
-        CharacterSet.new((start.min)..(finish.max))
+        start, finish = expression.map { |subexp| convert(subexp, to) }
+        acc << to.new((start.min)..(finish.max))
+      when Regexp::Expression::Subexpression # root, group, alternation, etc.
+        expression.each { |subexp| convert(subexp, to, acc) }
       when Regexp::Expression::CharacterType::Any
-        CharacterSet.unicode
+        acc << to.unicode
       when Regexp::Expression::CharacterType::Base
         /(?<negative>non)?(?<base_name>.+)/ =~ expression.token
         content =
           if expression.unicode_classes?
-            # in u-mode, type shortcuts match the same as \p{<long type name>}
-            CharacterSet.of_property(base_name)
+            # in u-mode, most type shortcuts match the same as \p{<long type name>}
+            if base_name == 'linebreak'
+              to.from_ranges(10..13, 133..133, 8232..8233)
+            else
+              to.of_property(base_name)
+            end
           else
             # in normal mode, types match only ascii chars
             case base_name.to_sym
-            when :digit then CharacterSet.from_ranges(48..57)
-            when :hex   then CharacterSet.from_ranges(48..57, 65..70, 97..102)
-            when :space then CharacterSet.from_ranges(9..13, 32..32)
-            when :word  then CharacterSet.from_ranges(48..57, 65..90, 95..95, 97..122)
+            when :digit     then to.from_ranges(48..57)
+            when :hex       then to.from_ranges(48..57, 65..70, 97..102)
+            when :linebreak then to.from_ranges(10..13)
+            when :space     then to.from_ranges(9..13, 32..32)
+            when :word      then to.from_ranges(48..57, 65..90, 95..95, 97..122)
             else raise Error, "Unsupported CharacterType #{base_name}"
             end
           end
-        negative ? content.inversion : content
+        acc << (negative ? content.inversion : content)
       when Regexp::Expression::EscapeSequence::CodepointList
-        CharacterSet.new(expression.codepoints)
+        content = to.new(expression.codepoints)
+        acc << (expression.i? ? content.case_insensitive : content)
       when Regexp::Expression::EscapeSequence::Base
-        CharacterSet[expression.codepoint]
-      when Regexp::Expression::Group::Capture,
-           Regexp::Expression::Group::Passive,
-           Regexp::Expression::Group::Named,
-           Regexp::Expression::Group::Atomic,
-           Regexp::Expression::Group::Options
-        case expression.count
-        when 0 then CharacterSet[]
-        when 1 then convert(expression.first)
-        else
-          raise Error, 'Groups must contain exactly one expression, e.g. ([a-z])'
-        end
-      when Regexp::Expression::Alternation
-        expression.map { |subexp| convert(subexp) }.reduce(:+)
-      when Regexp::Expression::Alternative
-        case expression.count
-        when 0 then CharacterSet[]
-        when 1 then convert(expression.first)
-        else
-          raise Error, 'Alternatives must contain exactly one expression'
-        end
+        content = to[expression.codepoint]
+        acc << (expression.i? ? content.case_insensitive : content)
       when Regexp::Expression::Literal
-        if expression.set_level == 0 && expression.text.size != 1
-          raise Error, 'Literal runs outside of sets are codepoint *sequences*'
-        end
-        CharacterSet[expression.text.ord]
+        content = to[*expression.text.chars]
+        acc << (expression.i? ? content.case_insensitive : content)
       when Regexp::Expression::UnicodeProperty::Base,
            Regexp::Expression::PosixClass
-        content = CharacterSet.of_property(expression.token)
+        content = to.of_property(expression.token)
         if expression.type == :posixclass && expression.ascii_classes?
           content = content.ascii_part
         end
-        expression.negative? ? content.inversion : content
+        acc << (expression.negative? ? content.inversion : content)
+      when Regexp::Expression::Anchor::Base,
+           Regexp::Expression::Backreference::Base,
+           Regexp::Expression::Keep::Mark,
+           Regexp::Expression::Quantifier
+        # ignore zero-length and repeat expressions
       when Regexp::Expression::Base
         raise Error, "Unsupported expression class `#{expression.class}`"
       else
-        raise Error, "Pass an expression (result of Regexp::Parser.parse)"
+        raise Error, 'Pass an expression (result of Regexp::Parser.parse)'
       end
+      acc.reduce(:+) || to[]
     end
   end
 end