RubyGems - regexp_parser - Versions diffs - 1.3.0 → 1.6.0 - Mend

regexp_parser 1.3.0 → 1.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (169) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +53 -1
data/Gemfile +3 -3
data/README.md +10 -14
data/Rakefile +3 -4
data/lib/regexp_parser/expression.rb +28 -53
data/lib/regexp_parser/expression/classes/backref.rb +18 -10
data/lib/regexp_parser/expression/classes/conditional.rb +7 -2
data/lib/regexp_parser/expression/classes/escape.rb +0 -4
data/lib/regexp_parser/expression/classes/group.rb +4 -2
data/lib/regexp_parser/expression/classes/keep.rb +1 -3
data/lib/regexp_parser/expression/methods/match.rb +13 -0
data/lib/regexp_parser/expression/methods/match_length.rb +172 -0
data/lib/regexp_parser/expression/methods/options.rb +35 -0
data/lib/regexp_parser/expression/methods/strfregexp.rb +0 -1
data/lib/regexp_parser/expression/methods/tests.rb +6 -15
data/lib/regexp_parser/expression/quantifier.rb +2 -2
data/lib/regexp_parser/expression/sequence.rb +3 -6
data/lib/regexp_parser/expression/sequence_operation.rb +2 -6
data/lib/regexp_parser/expression/subexpression.rb +3 -5
data/lib/regexp_parser/lexer.rb +30 -44
data/lib/regexp_parser/parser.rb +47 -24
data/lib/regexp_parser/scanner.rb +1159 -1329
data/lib/regexp_parser/scanner/char_type.rl +0 -3
data/lib/regexp_parser/scanner/properties/long.yml +34 -1
data/lib/regexp_parser/scanner/properties/short.yml +12 -0
data/lib/regexp_parser/scanner/scanner.rl +82 -190
data/lib/regexp_parser/syntax/tokens.rb +2 -10
data/lib/regexp_parser/syntax/tokens/unicode_property.rb +72 -21
data/lib/regexp_parser/syntax/versions/2.6.0.rb +10 -0
data/lib/regexp_parser/syntax/versions/2.6.2.rb +10 -0
data/lib/regexp_parser/syntax/versions/2.6.3.rb +10 -0
data/lib/regexp_parser/version.rb +1 -1
data/regexp_parser.gemspec +3 -3
data/spec/expression/base_spec.rb +94 -0
data/spec/expression/clone_spec.rb +120 -0
data/spec/expression/conditional_spec.rb +89 -0
data/spec/expression/free_space_spec.rb +27 -0
data/spec/expression/methods/match_length_spec.rb +154 -0
data/spec/expression/methods/match_spec.rb +25 -0
data/spec/expression/methods/strfregexp_spec.rb +224 -0
data/spec/expression/methods/tests_spec.rb +99 -0
data/spec/expression/methods/traverse_spec.rb +140 -0
data/spec/expression/options_spec.rb +128 -0
data/spec/expression/root_spec.rb +9 -0
data/spec/expression/sequence_spec.rb +9 -0
data/spec/expression/subexpression_spec.rb +50 -0
data/spec/expression/to_h_spec.rb +26 -0
data/spec/expression/to_s_spec.rb +100 -0
data/spec/lexer/all_spec.rb +22 -0
data/spec/lexer/conditionals_spec.rb +53 -0
data/spec/lexer/escapes_spec.rb +14 -0
data/spec/lexer/keep_spec.rb +10 -0
data/spec/lexer/literals_spec.rb +89 -0
data/spec/lexer/nesting_spec.rb +99 -0
data/spec/lexer/refcalls_spec.rb +55 -0
data/spec/parser/all_spec.rb +43 -0
data/spec/parser/alternation_spec.rb +88 -0
data/spec/parser/anchors_spec.rb +17 -0
data/spec/parser/conditionals_spec.rb +179 -0
data/spec/parser/errors_spec.rb +30 -0
data/spec/parser/escapes_spec.rb +121 -0
data/spec/parser/free_space_spec.rb +130 -0
data/spec/parser/groups_spec.rb +108 -0
data/spec/parser/keep_spec.rb +6 -0
data/spec/parser/posix_classes_spec.rb +8 -0
data/spec/parser/properties_spec.rb +115 -0
data/spec/parser/quantifiers_spec.rb +51 -0
data/spec/parser/refcalls_spec.rb +112 -0
data/spec/parser/set/intersections_spec.rb +127 -0
data/spec/parser/set/ranges_spec.rb +111 -0
data/spec/parser/sets_spec.rb +178 -0
data/spec/parser/types_spec.rb +18 -0
data/spec/scanner/all_spec.rb +18 -0
data/spec/scanner/anchors_spec.rb +21 -0
data/spec/scanner/conditionals_spec.rb +128 -0
data/spec/scanner/errors_spec.rb +68 -0
data/spec/scanner/escapes_spec.rb +53 -0
data/spec/scanner/free_space_spec.rb +133 -0
data/spec/scanner/groups_spec.rb +52 -0
data/spec/scanner/keep_spec.rb +10 -0
data/spec/scanner/literals_spec.rb +49 -0
data/spec/scanner/meta_spec.rb +18 -0
data/spec/scanner/properties_spec.rb +64 -0
data/spec/scanner/quantifiers_spec.rb +20 -0
data/spec/scanner/refcalls_spec.rb +36 -0
data/spec/scanner/sets_spec.rb +102 -0
data/spec/scanner/types_spec.rb +14 -0
data/spec/spec_helper.rb +15 -0
data/{test → spec}/support/runner.rb +9 -8
data/spec/support/shared_examples.rb +77 -0
data/{test → spec}/support/warning_extractor.rb +5 -7
data/spec/syntax/syntax_spec.rb +48 -0
data/spec/syntax/syntax_token_map_spec.rb +23 -0
data/spec/syntax/versions/1.8.6_spec.rb +17 -0
data/spec/syntax/versions/1.9.1_spec.rb +10 -0
data/spec/syntax/versions/1.9.3_spec.rb +9 -0
data/spec/syntax/versions/2.0.0_spec.rb +13 -0
data/spec/syntax/versions/2.2.0_spec.rb +9 -0
data/spec/syntax/versions/aliases_spec.rb +37 -0
data/spec/token/token_spec.rb +85 -0
metadata +144 -143
data/test/expression/test_all.rb +0 -12
data/test/expression/test_base.rb +0 -90
data/test/expression/test_clone.rb +0 -89
data/test/expression/test_conditionals.rb +0 -113
data/test/expression/test_free_space.rb +0 -35
data/test/expression/test_set.rb +0 -84
data/test/expression/test_strfregexp.rb +0 -230
data/test/expression/test_subexpression.rb +0 -58
data/test/expression/test_tests.rb +0 -99
data/test/expression/test_to_h.rb +0 -59
data/test/expression/test_to_s.rb +0 -104
data/test/expression/test_traverse.rb +0 -161
data/test/helpers.rb +0 -10
data/test/lexer/test_all.rb +0 -41
data/test/lexer/test_conditionals.rb +0 -127
data/test/lexer/test_keep.rb +0 -24
data/test/lexer/test_literals.rb +0 -130
data/test/lexer/test_nesting.rb +0 -132
data/test/lexer/test_refcalls.rb +0 -56
data/test/parser/set/test_intersections.rb +0 -127
data/test/parser/set/test_ranges.rb +0 -111
data/test/parser/test_all.rb +0 -64
data/test/parser/test_alternation.rb +0 -92
data/test/parser/test_anchors.rb +0 -34
data/test/parser/test_conditionals.rb +0 -187
data/test/parser/test_errors.rb +0 -63
data/test/parser/test_escapes.rb +0 -134
data/test/parser/test_free_space.rb +0 -139
data/test/parser/test_groups.rb +0 -289
data/test/parser/test_keep.rb +0 -21
data/test/parser/test_posix_classes.rb +0 -27
data/test/parser/test_properties.rb +0 -133
data/test/parser/test_quantifiers.rb +0 -301
data/test/parser/test_refcalls.rb +0 -186
data/test/parser/test_sets.rb +0 -179
data/test/parser/test_types.rb +0 -50
data/test/scanner/test_all.rb +0 -38
data/test/scanner/test_anchors.rb +0 -38
data/test/scanner/test_conditionals.rb +0 -184
data/test/scanner/test_errors.rb +0 -91
data/test/scanner/test_escapes.rb +0 -56
data/test/scanner/test_free_space.rb +0 -200
data/test/scanner/test_groups.rb +0 -79
data/test/scanner/test_keep.rb +0 -35
data/test/scanner/test_literals.rb +0 -89
data/test/scanner/test_meta.rb +0 -40
data/test/scanner/test_properties.rb +0 -312
data/test/scanner/test_quantifiers.rb +0 -37
data/test/scanner/test_refcalls.rb +0 -52
data/test/scanner/test_scripts.rb +0 -53
data/test/scanner/test_sets.rb +0 -119
data/test/scanner/test_types.rb +0 -35
data/test/scanner/test_unicode_blocks.rb +0 -30
data/test/support/disable_autotest.rb +0 -8
data/test/syntax/test_all.rb +0 -6
data/test/syntax/test_syntax.rb +0 -61
data/test/syntax/test_syntax_token_map.rb +0 -25
data/test/syntax/versions/test_1.8.rb +0 -55
data/test/syntax/versions/test_1.9.1.rb +0 -36
data/test/syntax/versions/test_1.9.3.rb +0 -32
data/test/syntax/versions/test_2.0.0.rb +0 -37
data/test/syntax/versions/test_2.2.0.rb +0 -32
data/test/syntax/versions/test_aliases.rb +0 -129
data/test/syntax/versions/test_all.rb +0 -5
data/test/test_all.rb +0 -5
data/test/token/test_all.rb +0 -2
data/test/token/test_token.rb +0 -107

data/lib/regexp_parser/expression/methods/match_length.rb ADDED

@@ -0,0 +1,172 @@
+class Regexp::MatchLength
+  include Enumerable
+  def self.of(obj)
+    exp = obj.is_a?(Regexp::Expression::Base) ? obj : Regexp::Parser.parse(obj)
+    exp.match_length
+  end
+  def initialize(exp, opts = {})
+    self.exp_class = exp.class
+    self.min_rep = exp.repetitions.min
+    self.max_rep = exp.repetitions.max
+    if base = opts[:base]
+      self.base_min = base
+      self.base_max = base
+      self.reify = ->{ '.' * base }
+    else
+      self.base_min = opts.fetch(:base_min)
+      self.base_max = opts.fetch(:base_max)
+      self.reify = opts.fetch(:reify)
+    end
+  end
+  def each(opts = {})
+    return enum_for(__method__) unless block_given?
+    limit = opts[:limit] || 1000
+    yielded = 0
+    (min..max).each do |num|
+      next unless include?(num)
+      yield(num)
+      break if (yielded += 1) >= limit
+    end
+  end
+  def endless_each(&block)
+    return enum_for(__method__) unless block_given?
+    (min..max).each { |num| yield(num) if include?(num) }
+  end
+  def include?(length)
+    test_regexp.match?('X' * length)
+  end
+  def fixed?
+    min == max
+  end
+  def min
+    min_rep * base_min
+  end
+  def max
+    max_rep * base_max
+  end
+  def minmax
+    [min, max]
+  end
+  def inspect
+    type = exp_class.name.sub('Regexp::Expression::', '')
+    "#<#{self.class}<#{type}> min=#{min} max=#{max}>"
+  end
+  def to_re
+    "(?:#{reify.call}){#{min_rep},#{max_rep unless max_rep == Float::INFINITY}}"
+  end
+  private
+  attr_accessor :base_min, :base_max, :min_rep, :max_rep, :exp_class, :reify
+  def test_regexp
+    @test_regexp ||= Regexp.new("^#{to_re}$").tap do |regexp|
+      regexp.respond_to?(:match?) || def regexp.match?(str); !!match(str) end
+    end
+  end
+end
+module Regexp::Expression
+  MatchLength = Regexp::MatchLength
+  [
+    CharacterSet,
+    CharacterSet::Intersection,
+    CharacterSet::IntersectedSequence,
+    CharacterSet::Range,
+    CharacterType::Base,
+    EscapeSequence::Base,
+    PosixClass,
+    UnicodeProperty::Base,
+  ].each do |klass|
+    klass.class_eval <<-RUBY, __FILE__, __LINE__ + 1
+      def match_length
+        MatchLength.new(self, base: 1)
+      end
+    RUBY
+  end
+  class Literal
+    def match_length
+      MatchLength.new(self, base: text.length)
+    end
+  end
+  class Subexpression
+    def match_length
+      MatchLength.new(self,
+                       base_min: map { |exp| exp.match_length.min }.inject(0, :+),
+                       base_max: map { |exp| exp.match_length.max }.inject(0, :+),
+                       reify: ->{ map { |exp| exp.match_length.to_re }.join })
+    end
+    def inner_match_length
+      dummy = Regexp::Expression::Root.build
+      dummy.expressions = expressions.map(&:clone)
+      dummy.quantifier = quantifier && quantifier.clone
+      dummy.match_length
+    end
+  end
+  [
+    Alternation,
+    Conditional::Expression,
+  ].each do |klass|
+    klass.class_eval <<-RUBY, __FILE__, __LINE__ + 1
+      def match_length
+        MatchLength.new(self,
+                         base_min: map { |exp| exp.match_length.min }.min,
+                         base_max: map { |exp| exp.match_length.max }.max,
+                         reify: ->{ map { |exp| exp.match_length.to_re }.join('|') })
+      end
+    RUBY
+  end
+  [
+    Anchor::Base,
+    Assertion::Base,
+    Conditional::Condition,
+    FreeSpace,
+    Keep::Mark,
+  ].each do |klass|
+    klass.class_eval <<-RUBY, __FILE__, __LINE__ + 1
+      def match_length
+        MatchLength.new(self, base: 0)
+      end
+    RUBY
+  end
+  class Backreference::Base
+    def match_length
+      if referenced_expression.nil?
+        raise ArgumentError, 'Missing referenced_expression - not parsed?'
+      end
+      referenced_expression.unquantified_clone.match_length
+    end
+  end
+  class EscapeSequence::CodepointList
+    def match_length
+      MatchLength.new(self, base: codepoints.count)
+    end
+  end
+  # Special case. Absence group can match 0.. chars, irrespective of content.
+  # TODO: in theory, they *can* exclude match lengths with `.`: `(?~.{3})`
+  class Group::Absence
+    def match_length
+      MatchLength.new(self, base_min: 0, base_max: Float::INFINITY, reify: ->{ '.*' })
+    end
+  end
+end

data/lib/regexp_parser/expression/methods/options.rb ADDED

@@ -0,0 +1,35 @@
+module Regexp::Expression
+  class Base
+    def multiline?
+      options[:m] == true
+    end
+    alias :m? :multiline?
+    def case_insensitive?
+      options[:i] == true
+    end
+    alias :i? :case_insensitive?
+    alias :ignore_case? :case_insensitive?
+    def free_spacing?
+      options[:x] == true
+    end
+    alias :x? :free_spacing?
+    alias :extended? :free_spacing?
+    def default_classes?
+      options[:d] == true
+    end
+    alias :d? :default_classes?
+    def ascii_classes?
+      options[:a] == true
+    end
+    alias :a? :ascii_classes?
+    def unicode_classes?
+      options[:u] == true
+    end
+    alias :u? :unicode_classes?
+  end
+end

data/lib/regexp_parser/expression/methods/strfregexp.rb CHANGED

@@ -1,5 +1,4 @@
 module Regexp::Expression
   class Base
     #   %l  Level (depth) of the expression. Returns 'root' for the root

data/lib/regexp_parser/expression/methods/tests.rb CHANGED

@@ -75,32 +75,23 @@ module Regexp::Expression
     def one_of?(scope, top = true)
       case scope
       when Array
-        if scope.include?(:*)
-          return (scope.include?(token) or scope.include?(:*))
-        else
-          return scope.include?(token)
-        end
+        scope.include?(:*) || scope.include?(token)
       when Hash
         if scope.has_key?(:*)
           test_type = scope.has_key?(type) ? type : :*
-          return one_of?(scope[test_type], false)
+          one_of?(scope[test_type], false)
         else
-          return (scope.has_key?(type) and one_of?(scope[type], false))
+          scope.has_key?(type) && one_of?(scope[type], false)
         end
       when Symbol
-        return true if scope == :*
-        return is?(scope) unless top
-        return type?(scope) if top
+        scope.equal?(:*) || (top ? type?(scope) : is?(scope))
       else
-        raise "Array, Hash, or Symbol expected, #{scope.class.name} given"
+        raise ArgumentError,
+              "Array, Hash, or Symbol expected, #{scope.class.name} given"
       end
-      false
     end
   end
 end

data/lib/regexp_parser/expression/quantifier.rb CHANGED

@@ -12,8 +12,8 @@ module Regexp::Expression
       @max   = max
     end
-    def initialize_clone(other)
-      other.instance_variable_set(:@text, text.dup)
+    def initialize_clone(orig)
+      @text = orig.text.dup
       super
     end

data/lib/regexp_parser/expression/sequence.rb CHANGED

@@ -18,13 +18,14 @@ module Regexp::Expression
     end
     class << self
-      def add_to(subexpression, options = {})
+      def add_to(subexpression, params = {}, active_opts = {})
         sequence = at_levels(
           subexpression.level,
           subexpression.set_level,
-          options[:conditional_level] || subexpression.conditional_level
+          params[:conditional_level] || subexpression.conditional_level
         )
         sequence.nesting_level = subexpression.nesting_level + 1
+        sequence.options = active_opts
         subexpression.expressions << sequence
         sequence
       end
@@ -44,10 +45,6 @@ module Regexp::Expression
       end
     end
-    def text
-      to_s
-    end
     def starts_at
       expressions.first.starts_at
     end

data/lib/regexp_parser/expression/sequence_operation.rb CHANGED

@@ -14,12 +14,8 @@ module Regexp::Expression
       expressions.last << exp
     end
-    def add_sequence
-      self.class::OPERAND.add_to(self)
-    end
-    def quantify(token, text, min = nil, max = nil, mode = :greedy)
-      sequences.last.last.quantify(token, text, min, max, mode)
+    def add_sequence(active_opts = {})
+      self.class::OPERAND.add_to(self, {}, active_opts)
     end
     def to_s(format = :full)

data/lib/regexp_parser/expression/subexpression.rb CHANGED

@@ -12,8 +12,8 @@ module Regexp::Expression
     end
     # Override base method to clone the expressions as well.
-    def initialize_clone(other)
-      other.expressions = expressions.map(&:clone)
+    def initialize_clone(orig)
+      self.expressions = orig.expressions.map(&:clone)
       super
     end
@@ -46,9 +46,7 @@ module Regexp::Expression
     def to_s(format = :full)
       # Note: the format does not get passed down to subexpressions.
-      # Note: cant use #text accessor, b/c it is overriden as def text; to_s end
-      # in Expression::Sequence, causing infinite recursion. Clean-up needed.
-      "#{@text}#{expressions.join}#{quantifier_affix(format)}"
+      "#{expressions.join}#{quantifier_affix(format)}"
     end
     def to_h

data/lib/regexp_parser/lexer.rb CHANGED

@@ -22,6 +22,7 @@ class Regexp::Lexer
     self.nesting = 0
     self.set_nesting = 0
     self.conditional_nesting = 0
+    self.shift = 0
     last = nil
     Regexp::Scanner.scan(input) do |type, token, text, ts, te|
@@ -30,15 +31,13 @@ class Regexp::Lexer
       ascend(type, token)
-      break_literal(last) if type == :quantifier and
-        last and last.type == :literal
-      current = Regexp::Token.new(type, token, text, ts, te,
-                nesting, set_nesting, conditional_nesting)
+      if type == :quantifier and last
+        break_literal(last)        if last.type == :literal
+        break_codepoint_list(last) if last.token == :codepoint_list
+      end
-      current = merge_literal(current) if type == :literal and
-        set_nesting == 0 and
-        last and last.type == :literal
+      current = Regexp::Token.new(type, token, text, ts + shift, te + shift,
+                                  nesting, set_nesting, conditional_nesting)
       current = merge_condition(current) if type == :conditional and
         [:condition, :condition_close].include?(token)
@@ -65,7 +64,7 @@ class Regexp::Lexer
   private
-  attr_accessor :tokens, :nesting, :set_nesting, :conditional_nesting
+  attr_accessor :tokens, :nesting, :set_nesting, :conditional_nesting, :shift
   def ascend(type, token)
     case type
@@ -92,44 +91,31 @@ class Regexp::Lexer
   # called by scan to break a literal run that is longer than one character
   # into two separate tokens when it is followed by a quantifier
   def break_literal(token)
-    text = token.text
-    if text.scan(/./mu).length > 1
-      lead = text.sub(/.\z/mu, "")
-      last = text[/.\z/mu] || ''
-      if RUBY_VERSION >= '1.9'
-        lead_length = lead.bytesize
-        last_length = last.bytesize
-      else
-        lead_length = lead.length
-        last_length = last.length
-      end
-      tokens.pop
-      tokens << Regexp::Token.new(:literal, :literal, lead, token.ts,
-                (token.te - last_length), nesting, set_nesting, conditional_nesting)
-      tokens << Regexp::Token.new(:literal, :literal, last,
-                (token.ts + lead_length),
-                token.te, nesting, set_nesting, conditional_nesting)
-    end
+    lead, last, _ = token.text.partition(/.\z/mu)
+    return if lead.empty?
+    tokens.pop
+    tokens << Regexp::Token.new(:literal, :literal, lead,
+              token.ts, (token.te - last.bytesize),
+              nesting, set_nesting, conditional_nesting)
+    tokens << Regexp::Token.new(:literal, :literal, last,
+              (token.ts + lead.bytesize), token.te,
+              nesting, set_nesting, conditional_nesting)
   end
-  # called by scan to merge two consecutive literals. this happens when tokens
-  # get normalized (as in the case of posix/bre) and end up becoming literals.
-  def merge_literal(current)
-    last = tokens.pop
+  def break_codepoint_list(token)
+    lead, _, tail = token.text.rpartition(' ')
+    return if lead.empty?
+    tokens.pop
+    tokens << Regexp::Token.new(:escape, :codepoint_list, lead + '}',
+              token.ts, (token.te - tail.length),
+              nesting, set_nesting, conditional_nesting)
+    tokens << Regexp::Token.new(:escape, :codepoint_list, '\u{' + tail,
+              (token.ts + lead.length + 1), (token.te + 3),
+              nesting, set_nesting, conditional_nesting)
-    Regexp::Token.new(
-      :literal,
-      :literal,
-      last.text + current.text,
-      last.ts,
-      current.te,
-      nesting,
-      set_nesting,
-      conditional_nesting,
-    )
+    self.shift = shift + 3 # one space less, but extra \, u, {, and }
   end
   def merge_condition(current)

data/lib/regexp_parser/parser.rb CHANGED

@@ -39,6 +39,8 @@ class Regexp::Parser
       parse_token(token)
     end
+    assign_referenced_expressions
     if block_given?
       block.call(root)
     else
@@ -163,14 +165,18 @@ class Regexp::Parser
       node << Backreference::NameCall.new(token, active_opts)
     when :number, :number_ref
       node << Backreference::Number.new(token, active_opts)
-    when :number_rel_ref
-      node << Backreference::NumberRelative.new(token, active_opts)
     when :number_recursion_ref
       node << Backreference::NumberRecursionLevel.new(token, active_opts)
     when :number_call
       node << Backreference::NumberCall.new(token, active_opts)
+    when :number_rel_ref
+      node << Backreference::NumberRelative.new(token, active_opts).tap do |exp|
+        assign_effective_number(exp)
+      end
     when :number_rel_call
-      node << Backreference::NumberCallRelative.new(token, active_opts)
+      node << Backreference::NumberCallRelative.new(token, active_opts).tap do |exp|
+        assign_effective_number(exp)
+      end
     else
       raise UnknownTokenError.new('Backreference', token)
     end
@@ -209,9 +215,9 @@ class Regexp::Parser
       nest_conditional(Conditional::Expression.new(token, active_opts))
     when :condition
       conditional_nesting.last.condition = Conditional::Condition.new(token, active_opts)
-      conditional_nesting.last.branch
+      conditional_nesting.last.add_sequence(active_opts)
     when :separator
-      conditional_nesting.last.branch
+      conditional_nesting.last.add_sequence(active_opts)
       self.node = conditional_nesting.last.branches.last
     when :close
       conditional_nesting.pop
@@ -229,7 +235,7 @@ class Regexp::Parser
   end
   def posixclass(token)
-    node << PosixClass.new(token)
+    node << PosixClass.new(token, active_opts)
   end
   include Regexp::Expression::UnicodeProperty
@@ -491,6 +497,9 @@ class Regexp::Parser
     end
   end
+  MOD_FLAGS = %w[i m x].map(&:to_sym)
+  ENC_FLAGS = %w[a d u].map(&:to_sym)
   def options_group(token)
     positive, negative = token.text.split('-', 2)
     negative ||= ''
@@ -499,23 +508,23 @@ class Regexp::Parser
     opt_changes = {}
     new_active_opts = active_opts.dup
-    # Negative options have precedence. E.g. /(?i-i)a/ is case-sensitive.
-    %w[i m x].each do |flag|
-      if positive.include?(flag)
-        opt_changes[flag.to_sym] = new_active_opts[flag.to_sym] = true
+    MOD_FLAGS.each do |flag|
+      if positive.include?(flag.to_s)
+        opt_changes[flag] = new_active_opts[flag] = true
       end
-      if negative.include?(flag)
-        opt_changes[flag.to_sym] = false
-        new_active_opts.delete(flag.to_sym)
+      if negative.include?(flag.to_s)
+        opt_changes[flag] = false
+        new_active_opts.delete(flag)
       end
     end
-    # Any encoding flag overrides all previous encoding flags. If there are
-    # multiple encoding flags in an options string, the last one wins.
-    # E.g. /(?dau)\w/ matches UTF8 chars but /(?dua)\w/ only ASCII chars.
-    if (flag = positive.reverse[/[adu]/])
-      %w[a d u].each { |key| new_active_opts.delete(key.to_sym) }
-      opt_changes[flag.to_sym] = new_active_opts[flag.to_sym] = true
+    if (enc_flag = positive.reverse[/[adu]/])
+      enc_flag = enc_flag.to_sym
+      (ENC_FLAGS - [enc_flag]).each do |other|
+        opt_changes[other] = false if new_active_opts[other]
+        new_active_opts.delete(other)
+      end
+      opt_changes[enc_flag] = new_active_opts[enc_flag] = true
     end
     options_stack << new_active_opts
@@ -600,16 +609,14 @@ class Regexp::Parser
   end
   def sequence_operation(klass, token)
-    if node.last.is_a?(klass)
-      self.node = node.last
-    elsif !node.is_a?(klass)
+    unless node.is_a?(klass)
       operator = klass.new(token, active_opts)
-      sequence = operator.add_sequence
+      sequence = operator.add_sequence(active_opts)
       sequence.expressions = node.expressions
       node.expressions = []
       nest(operator)
     end
-    node.add_sequence
+    node.add_sequence(active_opts)
   end
   def active_opts
@@ -627,4 +634,20 @@ class Regexp::Parser
   def count_captured_group
     captured_group_counts[node.level] += 1
   end
+  def assign_effective_number(exp)
+    exp.effective_number =
+      exp.number + total_captured_group_count + (exp.number < 0 ? 1 : 0)
+  end
+  def assign_referenced_expressions
+    targets = {}
+    root.each_expression do |exp|
+      exp.is_a?(Group::Capture) && targets[exp.identifier] = exp
+    end
+    root.each_expression do |exp|
+      exp.respond_to?(:reference) &&
+        exp.referenced_expression = targets[exp.reference]
+    end
+  end
 end # module Regexp::Parser