RubyGems - regexp_parser - Versions diffs - 1.7.1 → 2.2.1 - Mend

regexp_parser 1.7.1 → 2.2.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (139) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +157 -1
data/Gemfile +6 -1
data/LICENSE +1 -1
data/README.md +38 -32
data/Rakefile +18 -27
data/lib/regexp_parser/error.rb +4 -0
data/lib/regexp_parser/expression/base.rb +123 -0
data/lib/regexp_parser/expression/classes/anchor.rb +0 -2
data/lib/regexp_parser/expression/classes/{backref.rb → backreference.rb} +5 -0
data/lib/regexp_parser/expression/classes/{set → character_set}/intersection.rb +0 -0
data/lib/regexp_parser/expression/classes/{set → character_set}/range.rb +2 -1
data/lib/regexp_parser/expression/classes/{set.rb → character_set.rb} +0 -0
data/lib/regexp_parser/expression/classes/conditional.rb +11 -1
data/lib/regexp_parser/expression/classes/{escape.rb → escape_sequence.rb} +13 -7
data/lib/regexp_parser/expression/classes/free_space.rb +2 -4
data/lib/regexp_parser/expression/classes/group.rb +28 -3
data/lib/regexp_parser/expression/classes/literal.rb +1 -5
data/lib/regexp_parser/expression/classes/property.rb +1 -3
data/lib/regexp_parser/expression/classes/root.rb +4 -17
data/lib/regexp_parser/expression/classes/type.rb +0 -2
data/lib/regexp_parser/expression/methods/match_length.rb +2 -2
data/lib/regexp_parser/expression/methods/strfregexp.rb +1 -1
data/lib/regexp_parser/expression/methods/traverse.rb +2 -2
data/lib/regexp_parser/expression/quantifier.rb +11 -2
data/lib/regexp_parser/expression/sequence.rb +3 -20
data/lib/regexp_parser/expression/subexpression.rb +1 -2
data/lib/regexp_parser/expression.rb +7 -139
data/lib/regexp_parser/lexer.rb +13 -11
data/lib/regexp_parser/parser.rb +325 -344
data/lib/regexp_parser/scanner/char_type.rl +11 -11
data/lib/regexp_parser/scanner/properties/long.csv +604 -0
data/lib/regexp_parser/scanner/properties/short.csv +242 -0
data/lib/regexp_parser/scanner/property.rl +2 -2
data/lib/regexp_parser/scanner/scanner.rl +235 -255
data/lib/regexp_parser/scanner.rb +1324 -1387
data/lib/regexp_parser/syntax/any.rb +4 -6
data/lib/regexp_parser/syntax/base.rb +13 -15
data/lib/regexp_parser/syntax/token/anchor.rb +15 -0
data/lib/regexp_parser/syntax/{tokens → token}/assertion.rb +2 -2
data/lib/regexp_parser/syntax/token/backreference.rb +30 -0
data/lib/regexp_parser/syntax/{tokens → token}/character_set.rb +2 -2
data/lib/regexp_parser/syntax/{tokens → token}/character_type.rb +3 -3
data/lib/regexp_parser/syntax/{tokens → token}/conditional.rb +3 -3
data/lib/regexp_parser/syntax/token/escape.rb +31 -0
data/lib/regexp_parser/syntax/{tokens → token}/group.rb +7 -7
data/lib/regexp_parser/syntax/{tokens → token}/keep.rb +1 -1
data/lib/regexp_parser/syntax/{tokens → token}/meta.rb +2 -2
data/lib/regexp_parser/syntax/{tokens → token}/posix_class.rb +3 -3
data/lib/regexp_parser/syntax/token/quantifier.rb +35 -0
data/lib/regexp_parser/syntax/token/unicode_property.rb +696 -0
data/lib/regexp_parser/syntax/token.rb +45 -0
data/lib/regexp_parser/syntax/version_lookup.rb +4 -4
data/lib/regexp_parser/syntax/versions/1.8.6.rb +2 -2
data/lib/regexp_parser/syntax/versions/1.9.1.rb +1 -1
data/lib/regexp_parser/syntax/versions/3.1.0.rb +10 -0
data/lib/regexp_parser/syntax.rb +8 -6
data/lib/regexp_parser/token.rb +9 -20
data/lib/regexp_parser/version.rb +1 -1
data/lib/regexp_parser.rb +0 -2
data/regexp_parser.gemspec +20 -22
metadata +34 -165
data/lib/regexp_parser/scanner/properties/long.yml +0 -594
data/lib/regexp_parser/scanner/properties/short.yml +0 -237
data/lib/regexp_parser/syntax/tokens/anchor.rb +0 -15
data/lib/regexp_parser/syntax/tokens/backref.rb +0 -24
data/lib/regexp_parser/syntax/tokens/escape.rb +0 -30
data/lib/regexp_parser/syntax/tokens/quantifier.rb +0 -35
data/lib/regexp_parser/syntax/tokens/unicode_property.rb +0 -675
data/lib/regexp_parser/syntax/tokens.rb +0 -45
data/spec/expression/base_spec.rb +0 -94
data/spec/expression/clone_spec.rb +0 -120
data/spec/expression/conditional_spec.rb +0 -89
data/spec/expression/free_space_spec.rb +0 -27
data/spec/expression/methods/match_length_spec.rb +0 -161
data/spec/expression/methods/match_spec.rb +0 -25
data/spec/expression/methods/strfregexp_spec.rb +0 -224
data/spec/expression/methods/tests_spec.rb +0 -99
data/spec/expression/methods/traverse_spec.rb +0 -161
data/spec/expression/options_spec.rb +0 -128
data/spec/expression/root_spec.rb +0 -9
data/spec/expression/sequence_spec.rb +0 -9
data/spec/expression/subexpression_spec.rb +0 -50
data/spec/expression/to_h_spec.rb +0 -26
data/spec/expression/to_s_spec.rb +0 -100
data/spec/lexer/all_spec.rb +0 -22
data/spec/lexer/conditionals_spec.rb +0 -53
data/spec/lexer/delimiters_spec.rb +0 -68
data/spec/lexer/escapes_spec.rb +0 -14
data/spec/lexer/keep_spec.rb +0 -10
data/spec/lexer/literals_spec.rb +0 -89
data/spec/lexer/nesting_spec.rb +0 -99
data/spec/lexer/refcalls_spec.rb +0 -55
data/spec/parser/all_spec.rb +0 -43
data/spec/parser/alternation_spec.rb +0 -88
data/spec/parser/anchors_spec.rb +0 -17
data/spec/parser/conditionals_spec.rb +0 -179
data/spec/parser/errors_spec.rb +0 -30
data/spec/parser/escapes_spec.rb +0 -121
data/spec/parser/free_space_spec.rb +0 -130
data/spec/parser/groups_spec.rb +0 -108
data/spec/parser/keep_spec.rb +0 -6
data/spec/parser/posix_classes_spec.rb +0 -8
data/spec/parser/properties_spec.rb +0 -115
data/spec/parser/quantifiers_spec.rb +0 -52
data/spec/parser/refcalls_spec.rb +0 -112
data/spec/parser/set/intersections_spec.rb +0 -127
data/spec/parser/set/ranges_spec.rb +0 -111
data/spec/parser/sets_spec.rb +0 -178
data/spec/parser/types_spec.rb +0 -18
data/spec/scanner/all_spec.rb +0 -18
data/spec/scanner/anchors_spec.rb +0 -21
data/spec/scanner/conditionals_spec.rb +0 -128
data/spec/scanner/delimiters_spec.rb +0 -52
data/spec/scanner/errors_spec.rb +0 -67
data/spec/scanner/escapes_spec.rb +0 -53
data/spec/scanner/free_space_spec.rb +0 -133
data/spec/scanner/groups_spec.rb +0 -52
data/spec/scanner/keep_spec.rb +0 -10
data/spec/scanner/literals_spec.rb +0 -49
data/spec/scanner/meta_spec.rb +0 -18
data/spec/scanner/properties_spec.rb +0 -64
data/spec/scanner/quantifiers_spec.rb +0 -20
data/spec/scanner/refcalls_spec.rb +0 -36
data/spec/scanner/sets_spec.rb +0 -102
data/spec/scanner/types_spec.rb +0 -14
data/spec/spec_helper.rb +0 -15
data/spec/support/runner.rb +0 -42
data/spec/support/shared_examples.rb +0 -77
data/spec/support/warning_extractor.rb +0 -60
data/spec/syntax/syntax_spec.rb +0 -48
data/spec/syntax/syntax_token_map_spec.rb +0 -23
data/spec/syntax/versions/1.8.6_spec.rb +0 -17
data/spec/syntax/versions/1.9.1_spec.rb +0 -10
data/spec/syntax/versions/1.9.3_spec.rb +0 -9
data/spec/syntax/versions/2.0.0_spec.rb +0 -13
data/spec/syntax/versions/2.2.0_spec.rb +0 -9
data/spec/syntax/versions/aliases_spec.rb +0 -37
data/spec/token/token_spec.rb +0 -85

data/lib/regexp_parser/expression/classes/{escape.rb → escape_sequence.rb} RENAMED Viewed

@@ -1,16 +1,22 @@
 module Regexp::Expression
+  # TODO: unify naming with Token::Escape, on way or the other, in v3.0.0
   module EscapeSequence
     class Base < Regexp::Expression::Base
-      require 'yaml'
-      def char
-        # poor man's unescape without using eval
-        YAML.load(%Q(---\n"#{text}"\n))
-      end
       def codepoint
         char.ord
       end
+      if ''.respond_to?(:undump)
+        def char
+          %("#{text}").undump
+        end
+      else
+        # poor man's unescape without using eval
+        require 'yaml'
+        def char
+          YAML.load(%Q(---\n"#{text}"\n))
+        end
+      end
     end
     class Literal < EscapeSequence::Base

data/lib/regexp_parser/expression/classes/free_space.rb CHANGED Viewed

@@ -1,8 +1,7 @@
 module Regexp::Expression
   class FreeSpace < Regexp::Expression::Base
-    def quantify(token, text, min = nil, max = nil, mode = :greedy)
-      raise "Can not quantify a free space object"
+    def quantify(_token, _text, _min = nil, _max = nil, _mode = :greedy)
+      raise Regexp::Parser::Error, 'Can not quantify a free space object'
     end
   end
@@ -13,5 +12,4 @@ module Regexp::Expression
       text << exp.text
     end
   end
 end

data/lib/regexp_parser/expression/classes/group.rb CHANGED Viewed

@@ -10,11 +10,36 @@ module Regexp::Expression
       def comment?; false end
     end
-    class Atomic  < Group::Base; end
-    class Passive < Group::Base; end
+    class Passive < Group::Base
+      attr_writer :implicit
+      def initialize(*)
+        @implicit = false
+        super
+      end
+      def to_s(format = :full)
+        if implicit?
+          "#{expressions.join}#{quantifier_affix(format)}"
+        else
+          super
+        end
+      end
+      def implicit?
+        @implicit
+      end
+    end
     class Absence < Group::Base; end
+    class Atomic  < Group::Base; end
     class Options < Group::Base
       attr_accessor :option_changes
+      def initialize_copy(orig)
+        self.option_changes = orig.option_changes.dup
+        super
+      end
     end
     class Capture < Group::Base
@@ -33,7 +58,7 @@ module Regexp::Expression
         super
       end
-      def initialize_clone(orig)
+      def initialize_copy(orig)
         @name = orig.name.dup
         super
       end

data/lib/regexp_parser/expression/classes/literal.rb CHANGED Viewed

@@ -1,7 +1,3 @@
 module Regexp::Expression
-  class Literal < Regexp::Expression::Base
-    # Obviously nothing special here, yet.
-  end
+  class Literal < Regexp::Expression::Base; end
 end

data/lib/regexp_parser/expression/classes/property.rb CHANGED Viewed

@@ -1,5 +1,4 @@
 module Regexp::Expression
   module UnicodeProperty
     class Base < Regexp::Expression::Base
       def negative?
@@ -7,7 +6,7 @@ module Regexp::Expression
       end
       def name
-        text =~ /\A\\[pP]\{([^}]+)\}\z/; $1
+        text[/\A\\[pP]\{([^}]+)\}\z/, 1]
       end
       def shortcut
@@ -116,5 +115,4 @@ module Regexp::Expression
     class Script  < UnicodeProperty::Base; end
     class Block   < UnicodeProperty::Base; end
   end
 end # module Regexp::Expression

data/lib/regexp_parser/expression/classes/root.rb CHANGED Viewed

@@ -1,24 +1,11 @@
 module Regexp::Expression
   class Root < Regexp::Expression::Subexpression
-    # TODO: this override is here for backwards compatibility, remove in 2.0.0
-    def initialize(*args)
-      unless args.first.is_a?(Regexp::Token)
-        warn('WARNING: Root.new without a Token argument is deprecated and '\
-             'will be removed in 2.0.0. Use Root.build for the old behavior.')
-        return super(self.class.build_token, *args)
-      end
-      super
+    def self.build(options = {})
+      new(build_token, options)
     end
-    class << self
-      def build(options = {})
-        new(build_token, options)
-      end
-      def build_token
-        Regexp::Token.new(:expression, :root, '', 0)
-      end
+    def self.build_token
+      Regexp::Token.new(:expression, :root, '', 0)
     end
   end
 end

data/lib/regexp_parser/expression/classes/type.rb CHANGED Viewed

@@ -1,5 +1,4 @@
 module Regexp::Expression
   module CharacterType
     class Base < Regexp::Expression::Base; end
@@ -15,5 +14,4 @@ module Regexp::Expression
     class Linebreak        < CharacterType::Base; end
     class ExtendedGrapheme < CharacterType::Base; end
   end
 end

data/lib/regexp_parser/expression/methods/match_length.rb CHANGED Viewed

@@ -10,7 +10,7 @@ class Regexp::MatchLength
     self.exp_class = exp.class
     self.min_rep = exp.repetitions.min
     self.max_rep = exp.repetitions.max
-    if base = opts[:base]
+    if (base = opts[:base])
       self.base_min = base
       self.base_max = base
       self.reify = ->{ '.' * base }
@@ -32,7 +32,7 @@ class Regexp::MatchLength
     end
   end
-  def endless_each(&block)
+  def endless_each
     return enum_for(__method__) unless block_given?
     (min..max).each { |num| yield(num) if include?(num) }
   end

data/lib/regexp_parser/expression/methods/strfregexp.rb CHANGED Viewed

@@ -43,7 +43,7 @@ module Regexp::Expression
       # Order is important! Fields that use other fields in their
       # definition must appear before the fields they use.
-      part_keys = %w{a m b o i l x s e S y k c q Q z Z t ~t T >}
+      part_keys = %w[a m b o i l x s e S y k c q Q z Z t ~t T >]
       part.keys.each {|k| part[k] = "<?#{k}?>"}
       part['>'] = print_level ? ('  ' * (print_level + indent_offset)) : ''

data/lib/regexp_parser/expression/methods/traverse.rb CHANGED Viewed

@@ -36,7 +36,7 @@ module Regexp::Expression
     # Iterates over the expressions of this expression as an array, passing
     # the expression and its index within its parent to the given block.
-    def each_expression(include_self = false, &block)
+    def each_expression(include_self = false)
       return enum_for(__method__, include_self) unless block_given?
       traverse(include_self) do |event, exp, index|
@@ -47,7 +47,7 @@ module Regexp::Expression
     # Returns a new array with the results of calling the given block once
     # for every expression. If a block is not given, returns an array with
     # each expression and its level index as an array.
-    def flat_map(include_self = false, &block)
+    def flat_map(include_self = false)
       result = []
       each_expression(include_self) do |exp, index|

data/lib/regexp_parser/expression/quantifier.rb CHANGED Viewed

@@ -1,6 +1,6 @@
 module Regexp::Expression
   class Quantifier
-    MODES = [:greedy, :possessive, :reluctant]
+    MODES = %i[greedy possessive reluctant]
     attr_reader :token, :text, :min, :max, :mode
@@ -12,7 +12,7 @@ module Regexp::Expression
       @max   = max
     end
-    def initialize_clone(orig)
+    def initialize_copy(orig)
       @text = orig.text.dup
       super
     end
@@ -40,5 +40,14 @@ module Regexp::Expression
       RUBY
     end
     alias :lazy? :reluctant?
+    def ==(other)
+      other.class == self.class &&
+        other.token == token &&
+        other.mode == mode &&
+        other.min == min &&
+        other.max == max
+    end
+    alias :eq :==
   end
 end

data/lib/regexp_parser/expression/sequence.rb CHANGED Viewed

@@ -1,5 +1,4 @@
 module Regexp::Expression
   # A sequence of expressions. Differs from a Subexpressions by how it handles
   # quantifiers, as it applies them to its last element instead of itself as
   # a whole subexpression.
@@ -7,16 +6,6 @@ module Regexp::Expression
   # Used as the base class for the Alternation alternatives, Conditional
   # branches, and CharacterSet::Intersection intersected sequences.
   class Sequence < Regexp::Expression::Subexpression
-    # TODO: this override is here for backwards compatibility, remove in 2.0.0
-    def initialize(*args)
-      if args.count == 3
-        warn('WARNING: Sequence.new without a Regexp::Token argument is '\
-             'deprecated and will be removed in 2.0.0.')
-        return self.class.at_levels(*args)
-      end
-      super
-    end
     class << self
       def add_to(subexpression, params = {}, active_opts = {})
         sequence = at_levels(
@@ -51,17 +40,11 @@ module Regexp::Expression
     alias :ts :starts_at
     def quantify(token, text, min = nil, max = nil, mode = :greedy)
-      offset = -1
-      target = expressions[offset]
-      while target.is_a?(FreeSpace)
-        target = expressions[offset -= 1]
-      end
-      target || raise(ArgumentError, "No valid target found for '#{text}' "\
-                                     'quantifier')
+      target = expressions.reverse.find { |exp| !exp.is_a?(FreeSpace) }
+      target or raise Regexp::Parser::Error,
+        "No valid target found for '#{text}' quantifier"
       target.quantify(token, text, min, max, mode)
     end
   end
 end

data/lib/regexp_parser/expression/subexpression.rb CHANGED Viewed

@@ -1,5 +1,4 @@
 module Regexp::Expression
   class Subexpression < Regexp::Expression::Base
     include Enumerable
@@ -12,7 +11,7 @@ module Regexp::Expression
     end
     # Override base method to clone the expressions as well.
-    def initialize_clone(orig)
+    def initialize_copy(orig)
       self.expressions = orig.expressions.map(&:clone)
       super
     end

data/lib/regexp_parser/expression.rb CHANGED Viewed

@@ -1,138 +1,6 @@
-module Regexp::Expression
-  class Base
-    attr_accessor :type, :token
-    attr_accessor :text, :ts
-    attr_accessor :level, :set_level, :conditional_level, :nesting_level
-    attr_accessor :quantifier
-    attr_accessor :options
-    def initialize(token, options = {})
-      self.type              = token.type
-      self.token             = token.token
-      self.text              = token.text
-      self.ts                = token.ts
-      self.level             = token.level
-      self.set_level         = token.set_level
-      self.conditional_level = token.conditional_level
-      self.nesting_level     = 0
-      self.quantifier        = nil
-      self.options           = options
-    end
-    def initialize_clone(orig)
-      self.text       = (orig.text       ? orig.text.dup         : nil)
-      self.options    = (orig.options    ? orig.options.dup      : nil)
-      self.quantifier = (orig.quantifier ? orig.quantifier.clone : nil)
-      super
-    end
-    def to_re(format = :full)
-      ::Regexp.new(to_s(format))
-    end
-    alias :starts_at :ts
-    def full_length
-      to_s.length
-    end
-    def offset
-      [starts_at, full_length]
-    end
-    def coded_offset
-      '@%d+%d' % offset
-    end
-    def to_s(format = :full)
-      "#{text}#{quantifier_affix(format)}"
-    end
-    def quantifier_affix(expression_format)
-      quantifier.to_s if quantified? && expression_format != :base
-    end
-    def terminal?
-      !respond_to?(:expressions)
-    end
-    def quantify(token, text, min = nil, max = nil, mode = :greedy)
-      self.quantifier = Quantifier.new(token, text, min, max, mode)
-    end
-    def unquantified_clone
-      clone.tap { |exp| exp.quantifier = nil }
-    end
-    def quantified?
-      !quantifier.nil?
-    end
-    # Deprecated. Prefer `#repetitions` which has a more uniform interface.
-    def quantity
-      return [nil,nil] unless quantified?
-      [quantifier.min, quantifier.max]
-    end
-    def repetitions
-      return 1..1 unless quantified?
-      min = quantifier.min
-      max = quantifier.max < 0 ? Float::INFINITY : quantifier.max
-      # fix Range#minmax - https://bugs.ruby-lang.org/issues/15807
-      (min..max).tap { |r| r.define_singleton_method(:minmax) { [min, max] } }
-    end
-    def greedy?
-      quantified? and quantifier.greedy?
-    end
-    def reluctant?
-      quantified? and quantifier.reluctant?
-    end
-    alias :lazy? :reluctant?
-    def possessive?
-      quantified? and quantifier.possessive?
-    end
-    def attributes
-      {
-        type:              type,
-        token:             token,
-        text:              to_s(:base),
-        starts_at:         ts,
-        length:            full_length,
-        level:             level,
-        set_level:         set_level,
-        conditional_level: conditional_level,
-        options:           options,
-        quantifier:        quantified? ? quantifier.to_h : nil,
-      }
-    end
-    alias :to_h :attributes
-  end
-  def self.parsed(exp)
-    warn('WARNING: Regexp::Expression::Base.parsed is buggy and '\
-         'will be removed in 2.0.0. Use Regexp::Parser.parse instead.')
-    case exp
-    when String
-      Regexp::Parser.parse(exp)
-    when Regexp
-      Regexp::Parser.parse(exp.source) # <- causes loss of root options
-    when Regexp::Expression            # <- never triggers
-      exp
-    else
-      raise ArgumentError, 'Expression.parsed accepts a String, Regexp, or '\
-                           'a Regexp::Expression as a value for exp, but it '\
-                           "was given #{exp.class.name}."
-    end
-  end
-end # module Regexp::Expression
+require 'regexp_parser/error'
+require 'regexp_parser/expression/base'
 require 'regexp_parser/expression/quantifier'
 require 'regexp_parser/expression/subexpression'
 require 'regexp_parser/expression/sequence'
@@ -140,9 +8,12 @@ require 'regexp_parser/expression/sequence_operation'
 require 'regexp_parser/expression/classes/alternation'
 require 'regexp_parser/expression/classes/anchor'
-require 'regexp_parser/expression/classes/backref'
+require 'regexp_parser/expression/classes/backreference'
+require 'regexp_parser/expression/classes/character_set'
+require 'regexp_parser/expression/classes/character_set/intersection'
+require 'regexp_parser/expression/classes/character_set/range'
 require 'regexp_parser/expression/classes/conditional'
-require 'regexp_parser/expression/classes/escape'
+require 'regexp_parser/expression/classes/escape_sequence'
 require 'regexp_parser/expression/classes/free_space'
 require 'regexp_parser/expression/classes/group'
 require 'regexp_parser/expression/classes/keep'
@@ -150,9 +21,6 @@ require 'regexp_parser/expression/classes/literal'
 require 'regexp_parser/expression/classes/posix_class'
 require 'regexp_parser/expression/classes/property'
 require 'regexp_parser/expression/classes/root'
-require 'regexp_parser/expression/classes/set'
-require 'regexp_parser/expression/classes/set/intersection'
-require 'regexp_parser/expression/classes/set/range'
 require 'regexp_parser/expression/classes/type'
 require 'regexp_parser/expression/methods/match'

data/lib/regexp_parser/lexer.rb CHANGED Viewed

@@ -4,18 +4,20 @@
 # given syntax flavor.
 class Regexp::Lexer
-  OPENING_TOKENS = [
-    :capture, :passive, :lookahead, :nlookahead, :lookbehind, :nlookbehind,
-    :atomic, :options, :options_switch, :named, :absence
+  OPENING_TOKENS = %i[
+    capture passive lookahead nlookahead lookbehind nlookbehind
+    atomic options options_switch named absence
   ].freeze
-  CLOSING_TOKENS = [:close].freeze
+  CLOSING_TOKENS = %i[close].freeze
-  def self.lex(input, syntax = "ruby/#{RUBY_VERSION}", &block)
-    new.lex(input, syntax, &block)
+  CONDITION_TOKENS = %i[condition condition_close].freeze
+  def self.lex(input, syntax = "ruby/#{RUBY_VERSION}", options: nil, &block)
+    new.lex(input, syntax, options: options, &block)
   end
-  def lex(input, syntax = "ruby/#{RUBY_VERSION}", &block)
+  def lex(input, syntax = "ruby/#{RUBY_VERSION}", options: nil, &block)
     syntax = Regexp::Syntax.new(syntax)
     self.tokens = []
@@ -25,7 +27,7 @@ class Regexp::Lexer
     self.shift = 0
     last = nil
-    Regexp::Scanner.scan(input) do |type, token, text, ts, te|
+    Regexp::Scanner.scan(input, options: options) do |type, token, text, ts, te|
       type, token = *syntax.normalize(type, token)
       syntax.check! type, token
@@ -40,7 +42,7 @@ class Regexp::Lexer
                                   nesting, set_nesting, conditional_nesting)
       current = merge_condition(current) if type == :conditional and
-        [:condition, :condition_close].include?(token)
+        CONDITION_TOKENS.include?(token)
       last.next = current if last
       current.previous = last if last
@@ -96,10 +98,10 @@ class Regexp::Lexer
     tokens.pop
     tokens << Regexp::Token.new(:literal, :literal, lead,
-              token.ts, (token.te - last.bytesize),
+              token.ts, (token.te - last.length),
               nesting, set_nesting, conditional_nesting)
     tokens << Regexp::Token.new(:literal, :literal, last,
-              (token.ts + lead.bytesize), token.te,
+              (token.ts + lead.length), token.te,
               nesting, set_nesting, conditional_nesting)
   end