RubyGems - regexp_parser - Versions diffs - 1.3.0 → 1.7.0 - Mend

regexp_parser 1.3.0 → 1.7.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (170) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +65 -1
data/Gemfile +3 -3
data/README.md +10 -14
data/Rakefile +3 -4
data/lib/regexp_parser/expression.rb +28 -53
data/lib/regexp_parser/expression/classes/backref.rb +18 -10
data/lib/regexp_parser/expression/classes/conditional.rb +7 -2
data/lib/regexp_parser/expression/classes/escape.rb +0 -4
data/lib/regexp_parser/expression/classes/group.rb +4 -2
data/lib/regexp_parser/expression/classes/keep.rb +1 -3
data/lib/regexp_parser/expression/methods/match.rb +13 -0
data/lib/regexp_parser/expression/methods/match_length.rb +172 -0
data/lib/regexp_parser/expression/methods/options.rb +35 -0
data/lib/regexp_parser/expression/methods/strfregexp.rb +0 -1
data/lib/regexp_parser/expression/methods/tests.rb +6 -15
data/lib/regexp_parser/expression/methods/traverse.rb +3 -1
data/lib/regexp_parser/expression/quantifier.rb +2 -2
data/lib/regexp_parser/expression/sequence.rb +3 -6
data/lib/regexp_parser/expression/sequence_operation.rb +2 -6
data/lib/regexp_parser/expression/subexpression.rb +3 -5
data/lib/regexp_parser/lexer.rb +30 -44
data/lib/regexp_parser/parser.rb +47 -24
data/lib/regexp_parser/scanner.rb +1159 -1329
data/lib/regexp_parser/scanner/char_type.rl +0 -3
data/lib/regexp_parser/scanner/properties/long.yml +34 -1
data/lib/regexp_parser/scanner/properties/short.yml +12 -0
data/lib/regexp_parser/scanner/scanner.rl +82 -190
data/lib/regexp_parser/syntax/tokens.rb +2 -10
data/lib/regexp_parser/syntax/tokens/unicode_property.rb +72 -21
data/lib/regexp_parser/syntax/versions/2.6.0.rb +10 -0
data/lib/regexp_parser/syntax/versions/2.6.2.rb +10 -0
data/lib/regexp_parser/syntax/versions/2.6.3.rb +10 -0
data/lib/regexp_parser/version.rb +1 -1
data/regexp_parser.gemspec +3 -3
data/spec/expression/base_spec.rb +94 -0
data/spec/expression/clone_spec.rb +120 -0
data/spec/expression/conditional_spec.rb +89 -0
data/spec/expression/free_space_spec.rb +27 -0
data/spec/expression/methods/match_length_spec.rb +161 -0
data/spec/expression/methods/match_spec.rb +25 -0
data/spec/expression/methods/strfregexp_spec.rb +224 -0
data/spec/expression/methods/tests_spec.rb +99 -0
data/spec/expression/methods/traverse_spec.rb +161 -0
data/spec/expression/options_spec.rb +128 -0
data/spec/expression/root_spec.rb +9 -0
data/spec/expression/sequence_spec.rb +9 -0
data/spec/expression/subexpression_spec.rb +50 -0
data/spec/expression/to_h_spec.rb +26 -0
data/spec/expression/to_s_spec.rb +100 -0
data/spec/lexer/all_spec.rb +22 -0
data/spec/lexer/conditionals_spec.rb +53 -0
data/spec/lexer/escapes_spec.rb +14 -0
data/spec/lexer/keep_spec.rb +10 -0
data/spec/lexer/literals_spec.rb +89 -0
data/spec/lexer/nesting_spec.rb +99 -0
data/spec/lexer/refcalls_spec.rb +55 -0
data/spec/parser/all_spec.rb +43 -0
data/spec/parser/alternation_spec.rb +88 -0
data/spec/parser/anchors_spec.rb +17 -0
data/spec/parser/conditionals_spec.rb +179 -0
data/spec/parser/errors_spec.rb +30 -0
data/spec/parser/escapes_spec.rb +121 -0
data/spec/parser/free_space_spec.rb +130 -0
data/spec/parser/groups_spec.rb +108 -0
data/spec/parser/keep_spec.rb +6 -0
data/spec/parser/posix_classes_spec.rb +8 -0
data/spec/parser/properties_spec.rb +115 -0
data/spec/parser/quantifiers_spec.rb +51 -0
data/spec/parser/refcalls_spec.rb +112 -0
data/spec/parser/set/intersections_spec.rb +127 -0
data/spec/parser/set/ranges_spec.rb +111 -0
data/spec/parser/sets_spec.rb +178 -0
data/spec/parser/types_spec.rb +18 -0
data/spec/scanner/all_spec.rb +18 -0
data/spec/scanner/anchors_spec.rb +21 -0
data/spec/scanner/conditionals_spec.rb +128 -0
data/spec/scanner/errors_spec.rb +68 -0
data/spec/scanner/escapes_spec.rb +53 -0
data/spec/scanner/free_space_spec.rb +133 -0
data/spec/scanner/groups_spec.rb +52 -0
data/spec/scanner/keep_spec.rb +10 -0
data/spec/scanner/literals_spec.rb +49 -0
data/spec/scanner/meta_spec.rb +18 -0
data/spec/scanner/properties_spec.rb +64 -0
data/spec/scanner/quantifiers_spec.rb +20 -0
data/spec/scanner/refcalls_spec.rb +36 -0
data/spec/scanner/sets_spec.rb +102 -0
data/spec/scanner/types_spec.rb +14 -0
data/spec/spec_helper.rb +15 -0
data/{test → spec}/support/runner.rb +9 -8
data/spec/support/shared_examples.rb +77 -0
data/{test → spec}/support/warning_extractor.rb +5 -7
data/spec/syntax/syntax_spec.rb +48 -0
data/spec/syntax/syntax_token_map_spec.rb +23 -0
data/spec/syntax/versions/1.8.6_spec.rb +17 -0
data/spec/syntax/versions/1.9.1_spec.rb +10 -0
data/spec/syntax/versions/1.9.3_spec.rb +9 -0
data/spec/syntax/versions/2.0.0_spec.rb +13 -0
data/spec/syntax/versions/2.2.0_spec.rb +9 -0
data/spec/syntax/versions/aliases_spec.rb +37 -0
data/spec/token/token_spec.rb +85 -0
metadata +144 -143
data/test/expression/test_all.rb +0 -12
data/test/expression/test_base.rb +0 -90
data/test/expression/test_clone.rb +0 -89
data/test/expression/test_conditionals.rb +0 -113
data/test/expression/test_free_space.rb +0 -35
data/test/expression/test_set.rb +0 -84
data/test/expression/test_strfregexp.rb +0 -230
data/test/expression/test_subexpression.rb +0 -58
data/test/expression/test_tests.rb +0 -99
data/test/expression/test_to_h.rb +0 -59
data/test/expression/test_to_s.rb +0 -104
data/test/expression/test_traverse.rb +0 -161
data/test/helpers.rb +0 -10
data/test/lexer/test_all.rb +0 -41
data/test/lexer/test_conditionals.rb +0 -127
data/test/lexer/test_keep.rb +0 -24
data/test/lexer/test_literals.rb +0 -130
data/test/lexer/test_nesting.rb +0 -132
data/test/lexer/test_refcalls.rb +0 -56
data/test/parser/set/test_intersections.rb +0 -127
data/test/parser/set/test_ranges.rb +0 -111
data/test/parser/test_all.rb +0 -64
data/test/parser/test_alternation.rb +0 -92
data/test/parser/test_anchors.rb +0 -34
data/test/parser/test_conditionals.rb +0 -187
data/test/parser/test_errors.rb +0 -63
data/test/parser/test_escapes.rb +0 -134
data/test/parser/test_free_space.rb +0 -139
data/test/parser/test_groups.rb +0 -289
data/test/parser/test_keep.rb +0 -21
data/test/parser/test_posix_classes.rb +0 -27
data/test/parser/test_properties.rb +0 -133
data/test/parser/test_quantifiers.rb +0 -301
data/test/parser/test_refcalls.rb +0 -186
data/test/parser/test_sets.rb +0 -179
data/test/parser/test_types.rb +0 -50
data/test/scanner/test_all.rb +0 -38
data/test/scanner/test_anchors.rb +0 -38
data/test/scanner/test_conditionals.rb +0 -184
data/test/scanner/test_errors.rb +0 -91
data/test/scanner/test_escapes.rb +0 -56
data/test/scanner/test_free_space.rb +0 -200
data/test/scanner/test_groups.rb +0 -79
data/test/scanner/test_keep.rb +0 -35
data/test/scanner/test_literals.rb +0 -89
data/test/scanner/test_meta.rb +0 -40
data/test/scanner/test_properties.rb +0 -312
data/test/scanner/test_quantifiers.rb +0 -37
data/test/scanner/test_refcalls.rb +0 -52
data/test/scanner/test_scripts.rb +0 -53
data/test/scanner/test_sets.rb +0 -119
data/test/scanner/test_types.rb +0 -35
data/test/scanner/test_unicode_blocks.rb +0 -30
data/test/support/disable_autotest.rb +0 -8
data/test/syntax/test_all.rb +0 -6
data/test/syntax/test_syntax.rb +0 -61
data/test/syntax/test_syntax_token_map.rb +0 -25
data/test/syntax/versions/test_1.8.rb +0 -55
data/test/syntax/versions/test_1.9.1.rb +0 -36
data/test/syntax/versions/test_1.9.3.rb +0 -32
data/test/syntax/versions/test_2.0.0.rb +0 -37
data/test/syntax/versions/test_2.2.0.rb +0 -32
data/test/syntax/versions/test_aliases.rb +0 -129
data/test/syntax/versions/test_all.rb +0 -5
data/test/test_all.rb +0 -5
data/test/token/test_all.rb +0 -2
data/test/token/test_token.rb +0 -107

data/lib/regexp_parser/expression/methods/match.rb ADDED

@@ -0,0 +1,13 @@
+module Regexp::Expression
+  class Base
+    def match?(string)
+      !!match(string)
+    end
+    alias :matches? :match?
+    def match(string, offset = 0)
+      Regexp.new(to_s).match(string, offset)
+    end
+    alias :=~ :match
+  end
+end

data/lib/regexp_parser/expression/methods/match_length.rb ADDED

@@ -0,0 +1,172 @@
+class Regexp::MatchLength
+  include Enumerable
+  def self.of(obj)
+    exp = obj.is_a?(Regexp::Expression::Base) ? obj : Regexp::Parser.parse(obj)
+    exp.match_length
+  end
+  def initialize(exp, opts = {})
+    self.exp_class = exp.class
+    self.min_rep = exp.repetitions.min
+    self.max_rep = exp.repetitions.max
+    if base = opts[:base]
+      self.base_min = base
+      self.base_max = base
+      self.reify = ->{ '.' * base }
+    else
+      self.base_min = opts.fetch(:base_min)
+      self.base_max = opts.fetch(:base_max)
+      self.reify = opts.fetch(:reify)
+    end
+  end
+  def each(opts = {})
+    return enum_for(__method__, opts) unless block_given?
+    limit = opts[:limit] || 1000
+    yielded = 0
+    (min..max).each do |num|
+      next unless include?(num)
+      yield(num)
+      break if (yielded += 1) >= limit
+    end
+  end
+  def endless_each(&block)
+    return enum_for(__method__) unless block_given?
+    (min..max).each { |num| yield(num) if include?(num) }
+  end
+  def include?(length)
+    test_regexp.match?('X' * length)
+  end
+  def fixed?
+    min == max
+  end
+  def min
+    min_rep * base_min
+  end
+  def max
+    max_rep * base_max
+  end
+  def minmax
+    [min, max]
+  end
+  def inspect
+    type = exp_class.name.sub('Regexp::Expression::', '')
+    "#<#{self.class}<#{type}> min=#{min} max=#{max}>"
+  end
+  def to_re
+    "(?:#{reify.call}){#{min_rep},#{max_rep unless max_rep == Float::INFINITY}}"
+  end
+  private
+  attr_accessor :base_min, :base_max, :min_rep, :max_rep, :exp_class, :reify
+  def test_regexp
+    @test_regexp ||= Regexp.new("^#{to_re}$").tap do |regexp|
+      regexp.respond_to?(:match?) || def regexp.match?(str); !!match(str) end
+    end
+  end
+end
+module Regexp::Expression
+  MatchLength = Regexp::MatchLength
+  [
+    CharacterSet,
+    CharacterSet::Intersection,
+    CharacterSet::IntersectedSequence,
+    CharacterSet::Range,
+    CharacterType::Base,
+    EscapeSequence::Base,
+    PosixClass,
+    UnicodeProperty::Base,
+  ].each do |klass|
+    klass.class_eval <<-RUBY, __FILE__, __LINE__ + 1
+      def match_length
+        MatchLength.new(self, base: 1)
+      end
+    RUBY
+  end
+  class Literal
+    def match_length
+      MatchLength.new(self, base: text.length)
+    end
+  end
+  class Subexpression
+    def match_length
+      MatchLength.new(self,
+                       base_min: map { |exp| exp.match_length.min }.inject(0, :+),
+                       base_max: map { |exp| exp.match_length.max }.inject(0, :+),
+                       reify: ->{ map { |exp| exp.match_length.to_re }.join })
+    end
+    def inner_match_length
+      dummy = Regexp::Expression::Root.build
+      dummy.expressions = expressions.map(&:clone)
+      dummy.quantifier = quantifier && quantifier.clone
+      dummy.match_length
+    end
+  end
+  [
+    Alternation,
+    Conditional::Expression,
+  ].each do |klass|
+    klass.class_eval <<-RUBY, __FILE__, __LINE__ + 1
+      def match_length
+        MatchLength.new(self,
+                         base_min: map { |exp| exp.match_length.min }.min,
+                         base_max: map { |exp| exp.match_length.max }.max,
+                         reify: ->{ map { |exp| exp.match_length.to_re }.join('|') })
+      end
+    RUBY
+  end
+  [
+    Anchor::Base,
+    Assertion::Base,
+    Conditional::Condition,
+    FreeSpace,
+    Keep::Mark,
+  ].each do |klass|
+    klass.class_eval <<-RUBY, __FILE__, __LINE__ + 1
+      def match_length
+        MatchLength.new(self, base: 0)
+      end
+    RUBY
+  end
+  class Backreference::Base
+    def match_length
+      if referenced_expression.nil?
+        raise ArgumentError, 'Missing referenced_expression - not parsed?'
+      end
+      referenced_expression.unquantified_clone.match_length
+    end
+  end
+  class EscapeSequence::CodepointList
+    def match_length
+      MatchLength.new(self, base: codepoints.count)
+    end
+  end
+  # Special case. Absence group can match 0.. chars, irrespective of content.
+  # TODO: in theory, they *can* exclude match lengths with `.`: `(?~.{3})`
+  class Group::Absence
+    def match_length
+      MatchLength.new(self, base_min: 0, base_max: Float::INFINITY, reify: ->{ '.*' })
+    end
+  end
+end

data/lib/regexp_parser/expression/methods/options.rb ADDED

@@ -0,0 +1,35 @@
+module Regexp::Expression
+  class Base
+    def multiline?
+      options[:m] == true
+    end
+    alias :m? :multiline?
+    def case_insensitive?
+      options[:i] == true
+    end
+    alias :i? :case_insensitive?
+    alias :ignore_case? :case_insensitive?
+    def free_spacing?
+      options[:x] == true
+    end
+    alias :x? :free_spacing?
+    alias :extended? :free_spacing?
+    def default_classes?
+      options[:d] == true
+    end
+    alias :d? :default_classes?
+    def ascii_classes?
+      options[:a] == true
+    end
+    alias :a? :ascii_classes?
+    def unicode_classes?
+      options[:u] == true
+    end
+    alias :u? :unicode_classes?
+  end
+end

data/lib/regexp_parser/expression/methods/strfregexp.rb CHANGED

@@ -1,5 +1,4 @@
 module Regexp::Expression
   class Base
     #   %l  Level (depth) of the expression. Returns 'root' for the root

data/lib/regexp_parser/expression/methods/tests.rb CHANGED

@@ -75,32 +75,23 @@ module Regexp::Expression
     def one_of?(scope, top = true)
       case scope
       when Array
-        if scope.include?(:*)
-          return (scope.include?(token) or scope.include?(:*))
-        else
-          return scope.include?(token)
-        end
+        scope.include?(:*) || scope.include?(token)
       when Hash
         if scope.has_key?(:*)
           test_type = scope.has_key?(type) ? type : :*
-          return one_of?(scope[test_type], false)
+          one_of?(scope[test_type], false)
         else
-          return (scope.has_key?(type) and one_of?(scope[type], false))
+          scope.has_key?(type) && one_of?(scope[type], false)
         end
       when Symbol
-        return true if scope == :*
-        return is?(scope) unless top
-        return type?(scope) if top
+        scope.equal?(:*) || (top ? type?(scope) : is?(scope))
       else
-        raise "Array, Hash, or Symbol expected, #{scope.class.name} given"
+        raise ArgumentError,
+              "Array, Hash, or Symbol expected, #{scope.class.name} given"
       end
-      false
     end
   end
 end

data/lib/regexp_parser/expression/methods/traverse.rb CHANGED

@@ -14,7 +14,7 @@ module Regexp::Expression
     #
     # Returns self.
     def traverse(include_self = false, &block)
-      raise 'traverse requires a block' unless block_given?
+      return enum_for(__method__, include_self) unless block_given?
       block.call(:enter, self, 0) if include_self
@@ -37,6 +37,8 @@ module Regexp::Expression
     # Iterates over the expressions of this expression as an array, passing
     # the expression and its index within its parent to the given block.
     def each_expression(include_self = false, &block)
+      return enum_for(__method__, include_self) unless block_given?
       traverse(include_self) do |event, exp, index|
         yield(exp, index) unless event == :exit
       end

data/lib/regexp_parser/expression/quantifier.rb CHANGED

@@ -12,8 +12,8 @@ module Regexp::Expression
       @max   = max
     end
-    def initialize_clone(other)
-      other.instance_variable_set(:@text, text.dup)
+    def initialize_clone(orig)
+      @text = orig.text.dup
       super
     end

data/lib/regexp_parser/expression/sequence.rb CHANGED

@@ -18,13 +18,14 @@ module Regexp::Expression
     end
     class << self
-      def add_to(subexpression, options = {})
+      def add_to(subexpression, params = {}, active_opts = {})
         sequence = at_levels(
           subexpression.level,
           subexpression.set_level,
-          options[:conditional_level] || subexpression.conditional_level
+          params[:conditional_level] || subexpression.conditional_level
         )
         sequence.nesting_level = subexpression.nesting_level + 1
+        sequence.options = active_opts
         subexpression.expressions << sequence
         sequence
       end
@@ -44,10 +45,6 @@ module Regexp::Expression
       end
     end
-    def text
-      to_s
-    end
     def starts_at
       expressions.first.starts_at
     end

data/lib/regexp_parser/expression/sequence_operation.rb CHANGED

@@ -14,12 +14,8 @@ module Regexp::Expression
       expressions.last << exp
     end
-    def add_sequence
-      self.class::OPERAND.add_to(self)
-    end
-    def quantify(token, text, min = nil, max = nil, mode = :greedy)
-      sequences.last.last.quantify(token, text, min, max, mode)
+    def add_sequence(active_opts = {})
+      self.class::OPERAND.add_to(self, {}, active_opts)
     end
     def to_s(format = :full)

data/lib/regexp_parser/expression/subexpression.rb CHANGED

@@ -12,8 +12,8 @@ module Regexp::Expression
     end
     # Override base method to clone the expressions as well.
-    def initialize_clone(other)
-      other.expressions = expressions.map(&:clone)
+    def initialize_clone(orig)
+      self.expressions = orig.expressions.map(&:clone)
       super
     end
@@ -46,9 +46,7 @@ module Regexp::Expression
     def to_s(format = :full)
       # Note: the format does not get passed down to subexpressions.
-      # Note: cant use #text accessor, b/c it is overriden as def text; to_s end
-      # in Expression::Sequence, causing infinite recursion. Clean-up needed.
-      "#{@text}#{expressions.join}#{quantifier_affix(format)}"
+      "#{expressions.join}#{quantifier_affix(format)}"
     end
     def to_h

data/lib/regexp_parser/lexer.rb CHANGED

@@ -22,6 +22,7 @@ class Regexp::Lexer
     self.nesting = 0
     self.set_nesting = 0
     self.conditional_nesting = 0
+    self.shift = 0
     last = nil
     Regexp::Scanner.scan(input) do |type, token, text, ts, te|
@@ -30,15 +31,13 @@ class Regexp::Lexer
       ascend(type, token)
-      break_literal(last) if type == :quantifier and
-        last and last.type == :literal
-      current = Regexp::Token.new(type, token, text, ts, te,
-                nesting, set_nesting, conditional_nesting)
+      if type == :quantifier and last
+        break_literal(last)        if last.type == :literal
+        break_codepoint_list(last) if last.token == :codepoint_list
+      end
-      current = merge_literal(current) if type == :literal and
-        set_nesting == 0 and
-        last and last.type == :literal
+      current = Regexp::Token.new(type, token, text, ts + shift, te + shift,
+                                  nesting, set_nesting, conditional_nesting)
       current = merge_condition(current) if type == :conditional and
         [:condition, :condition_close].include?(token)
@@ -65,7 +64,7 @@ class Regexp::Lexer
   private
-  attr_accessor :tokens, :nesting, :set_nesting, :conditional_nesting
+  attr_accessor :tokens, :nesting, :set_nesting, :conditional_nesting, :shift
   def ascend(type, token)
     case type
@@ -92,44 +91,31 @@ class Regexp::Lexer
   # called by scan to break a literal run that is longer than one character
   # into two separate tokens when it is followed by a quantifier
   def break_literal(token)
-    text = token.text
-    if text.scan(/./mu).length > 1
-      lead = text.sub(/.\z/mu, "")
-      last = text[/.\z/mu] || ''
-      if RUBY_VERSION >= '1.9'
-        lead_length = lead.bytesize
-        last_length = last.bytesize
-      else
-        lead_length = lead.length
-        last_length = last.length
-      end
-      tokens.pop
-      tokens << Regexp::Token.new(:literal, :literal, lead, token.ts,
-                (token.te - last_length), nesting, set_nesting, conditional_nesting)
-      tokens << Regexp::Token.new(:literal, :literal, last,
-                (token.ts + lead_length),
-                token.te, nesting, set_nesting, conditional_nesting)
-    end
+    lead, last, _ = token.text.partition(/.\z/mu)
+    return if lead.empty?
+    tokens.pop
+    tokens << Regexp::Token.new(:literal, :literal, lead,
+              token.ts, (token.te - last.bytesize),
+              nesting, set_nesting, conditional_nesting)
+    tokens << Regexp::Token.new(:literal, :literal, last,
+              (token.ts + lead.bytesize), token.te,
+              nesting, set_nesting, conditional_nesting)
   end
-  # called by scan to merge two consecutive literals. this happens when tokens
-  # get normalized (as in the case of posix/bre) and end up becoming literals.
-  def merge_literal(current)
-    last = tokens.pop
+  def break_codepoint_list(token)
+    lead, _, tail = token.text.rpartition(' ')
+    return if lead.empty?
+    tokens.pop
+    tokens << Regexp::Token.new(:escape, :codepoint_list, lead + '}',
+              token.ts, (token.te - tail.length),
+              nesting, set_nesting, conditional_nesting)
+    tokens << Regexp::Token.new(:escape, :codepoint_list, '\u{' + tail,
+              (token.ts + lead.length + 1), (token.te + 3),
+              nesting, set_nesting, conditional_nesting)
-    Regexp::Token.new(
-      :literal,
-      :literal,
-      last.text + current.text,
-      last.ts,
-      current.te,
-      nesting,
-      set_nesting,
-      conditional_nesting,
-    )
+    self.shift = shift + 3 # one space less, but extra \, u, {, and }
   end
   def merge_condition(current)