RubyGems - regexp_parser - Versions diffs - 2.8.1 → 2.11.3 - Mend

regexp_parser 2.8.1 → 2.11.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (93) hide show

checksums.yaml +4 -4
data/Gemfile +6 -4
data/LICENSE +1 -1
data/Rakefile +5 -3
data/lib/regexp_parser/error.rb +2 -0
data/lib/regexp_parser/expression/base.rb +2 -0
data/lib/regexp_parser/expression/classes/alternation.rb +2 -0
data/lib/regexp_parser/expression/classes/anchor.rb +2 -0
data/lib/regexp_parser/expression/classes/backreference.rb +3 -20
data/lib/regexp_parser/expression/classes/character_set/intersection.rb +2 -0
data/lib/regexp_parser/expression/classes/character_set/range.rb +2 -0
data/lib/regexp_parser/expression/classes/character_set.rb +3 -4
data/lib/regexp_parser/expression/classes/character_type.rb +2 -0
data/lib/regexp_parser/expression/classes/conditional.rb +2 -14
data/lib/regexp_parser/expression/classes/escape_sequence.rb +26 -95
data/lib/regexp_parser/expression/classes/free_space.rb +2 -0
data/lib/regexp_parser/expression/classes/group.rb +2 -0
data/lib/regexp_parser/expression/classes/keep.rb +3 -1
data/lib/regexp_parser/expression/classes/literal.rb +2 -0
data/lib/regexp_parser/expression/classes/posix_class.rb +2 -4
data/lib/regexp_parser/expression/classes/root.rb +2 -0
data/lib/regexp_parser/expression/classes/unicode_property.rb +8 -9
data/lib/regexp_parser/expression/methods/construct.rb +2 -0
data/lib/regexp_parser/expression/methods/escape_sequence_char.rb +7 -0
data/lib/regexp_parser/expression/methods/escape_sequence_codepoint.rb +76 -0
data/lib/regexp_parser/expression/methods/human_name.rb +2 -0
data/lib/regexp_parser/expression/methods/match.rb +2 -0
data/lib/regexp_parser/expression/methods/match_length.rb +2 -0
data/lib/regexp_parser/expression/methods/negative.rb +22 -0
data/lib/regexp_parser/expression/methods/options.rb +2 -0
data/lib/regexp_parser/expression/methods/parts.rb +2 -0
data/lib/regexp_parser/expression/methods/printing.rb +2 -0
data/lib/regexp_parser/expression/methods/referenced_expressions.rb +30 -0
data/lib/regexp_parser/expression/methods/strfregexp.rb +2 -0
data/lib/regexp_parser/expression/methods/tests.rb +2 -0
data/lib/regexp_parser/expression/methods/traverse.rb +2 -0
data/lib/regexp_parser/expression/quantifier.rb +3 -1
data/lib/regexp_parser/expression/sequence.rb +2 -0
data/lib/regexp_parser/expression/sequence_operation.rb +2 -0
data/lib/regexp_parser/expression/shared.rb +6 -3
data/lib/regexp_parser/expression/subexpression.rb +2 -0
data/lib/regexp_parser/expression.rb +39 -33
data/lib/regexp_parser/lexer.rb +2 -0
data/lib/regexp_parser/parser.rb +16 -9
data/lib/regexp_parser/scanner/errors/premature_end_error.rb +2 -0
data/lib/regexp_parser/scanner/errors/scanner_error.rb +3 -1
data/lib/regexp_parser/scanner/errors/validation_error.rb +2 -0
data/lib/regexp_parser/scanner/properties/long.csv +37 -0
data/lib/regexp_parser/scanner/properties/short.csv +9 -0
data/lib/regexp_parser/scanner/scanner.rl +62 -18
data/lib/regexp_parser/scanner.rb +1041 -936
data/lib/regexp_parser/syntax/any.rb +2 -0
data/lib/regexp_parser/syntax/base.rb +2 -0
data/lib/regexp_parser/syntax/token/anchor.rb +5 -3
data/lib/regexp_parser/syntax/token/assertion.rb +4 -2
data/lib/regexp_parser/syntax/token/backreference.rb +8 -6
data/lib/regexp_parser/syntax/token/character_set.rb +3 -1
data/lib/regexp_parser/syntax/token/character_type.rb +6 -4
data/lib/regexp_parser/syntax/token/conditional.rb +5 -3
data/lib/regexp_parser/syntax/token/escape.rb +9 -7
data/lib/regexp_parser/syntax/token/group.rb +8 -6
data/lib/regexp_parser/syntax/token/keep.rb +3 -1
data/lib/regexp_parser/syntax/token/meta.rb +4 -2
data/lib/regexp_parser/syntax/token/posix_class.rb +4 -2
data/lib/regexp_parser/syntax/token/quantifier.rb +8 -6
data/lib/regexp_parser/syntax/token/unicode_property.rb +79 -46
data/lib/regexp_parser/syntax/token/virtual.rb +5 -3
data/lib/regexp_parser/syntax/token.rb +18 -16
data/lib/regexp_parser/syntax/version_lookup.rb +4 -2
data/lib/regexp_parser/syntax/versions/1.8.6.rb +2 -0
data/lib/regexp_parser/syntax/versions/1.9.1.rb +2 -0
data/lib/regexp_parser/syntax/versions/1.9.3.rb +2 -0
data/lib/regexp_parser/syntax/versions/2.0.0.rb +2 -0
data/lib/regexp_parser/syntax/versions/2.2.0.rb +2 -0
data/lib/regexp_parser/syntax/versions/2.3.0.rb +2 -0
data/lib/regexp_parser/syntax/versions/2.4.0.rb +2 -0
data/lib/regexp_parser/syntax/versions/2.4.1.rb +2 -0
data/lib/regexp_parser/syntax/versions/2.5.0.rb +2 -0
data/lib/regexp_parser/syntax/versions/2.6.0.rb +2 -0
data/lib/regexp_parser/syntax/versions/2.6.2.rb +2 -0
data/lib/regexp_parser/syntax/versions/2.6.3.rb +2 -0
data/lib/regexp_parser/syntax/versions/3.1.0.rb +2 -0
data/lib/regexp_parser/syntax/versions/3.2.0.rb +2 -0
data/lib/regexp_parser/syntax/versions/3.5.0.rb +4 -0
data/lib/regexp_parser/syntax/versions.rb +3 -1
data/lib/regexp_parser/syntax.rb +3 -1
data/lib/regexp_parser/token.rb +2 -0
data/lib/regexp_parser/version.rb +3 -1
data/lib/regexp_parser.rb +8 -6
data/regexp_parser.gemspec +7 -5
metadata +12 -11
data/CHANGELOG.md +0 -691
data/README.md +0 -506

data/lib/regexp_parser/expression/shared.rb CHANGED Viewed

@@ -1,3 +1,5 @@
+# frozen_string_literal: true
 module Regexp::Expression
   module Shared
     module ClassMethods; end # filled in ./methods/*.rb
@@ -70,11 +72,12 @@ module Regexp::Expression
     # lit.to_s(:original) # => 'a +' # with quantifier AND intermittent decorations
     #
     def to_s(format = :full)
-      base = parts.each_with_object(''.dup) do |part, buff|
+      base = ''.dup
+      parts.each do |part|
         if part.instance_of?(String)
-          buff << part
+          base << part
         elsif !part.custom_to_s_handling
-          buff << part.to_s(:original)
+          base << part.to_s(:original)
         end
       end
       "#{base}#{pre_quantifier_decoration(format)}#{quantifier_affix(format)}"

data/lib/regexp_parser/expression/subexpression.rb CHANGED Viewed

@@ -1,3 +1,5 @@
+# frozen_string_literal: true
 module Regexp::Expression
   class Subexpression < Regexp::Expression::Base
     include Enumerable

data/lib/regexp_parser/expression.rb CHANGED Viewed

@@ -1,36 +1,42 @@
-require 'regexp_parser/error'
+# frozen_string_literal: true
-require 'regexp_parser/expression/shared'
-require 'regexp_parser/expression/base'
-require 'regexp_parser/expression/quantifier'
-require 'regexp_parser/expression/subexpression'
-require 'regexp_parser/expression/sequence'
-require 'regexp_parser/expression/sequence_operation'
+require_relative 'error'
-require 'regexp_parser/expression/classes/alternation'
-require 'regexp_parser/expression/classes/anchor'
-require 'regexp_parser/expression/classes/backreference'
-require 'regexp_parser/expression/classes/character_set'
-require 'regexp_parser/expression/classes/character_set/intersection'
-require 'regexp_parser/expression/classes/character_set/range'
-require 'regexp_parser/expression/classes/character_type'
-require 'regexp_parser/expression/classes/conditional'
-require 'regexp_parser/expression/classes/escape_sequence'
-require 'regexp_parser/expression/classes/free_space'
-require 'regexp_parser/expression/classes/group'
-require 'regexp_parser/expression/classes/keep'
-require 'regexp_parser/expression/classes/literal'
-require 'regexp_parser/expression/classes/posix_class'
-require 'regexp_parser/expression/classes/root'
-require 'regexp_parser/expression/classes/unicode_property'
+require_relative 'expression/shared'
+require_relative 'expression/base'
+require_relative 'expression/quantifier'
+require_relative 'expression/subexpression'
+require_relative 'expression/sequence'
+require_relative 'expression/sequence_operation'
-require 'regexp_parser/expression/methods/construct'
-require 'regexp_parser/expression/methods/human_name'
-require 'regexp_parser/expression/methods/match'
-require 'regexp_parser/expression/methods/match_length'
-require 'regexp_parser/expression/methods/options'
-require 'regexp_parser/expression/methods/parts'
-require 'regexp_parser/expression/methods/printing'
-require 'regexp_parser/expression/methods/strfregexp'
-require 'regexp_parser/expression/methods/tests'
-require 'regexp_parser/expression/methods/traverse'
+require_relative 'expression/classes/alternation'
+require_relative 'expression/classes/anchor'
+require_relative 'expression/classes/backreference'
+require_relative 'expression/classes/character_set'
+require_relative 'expression/classes/character_set/intersection'
+require_relative 'expression/classes/character_set/range'
+require_relative 'expression/classes/character_type'
+require_relative 'expression/classes/conditional'
+require_relative 'expression/classes/escape_sequence'
+require_relative 'expression/classes/free_space'
+require_relative 'expression/classes/group'
+require_relative 'expression/classes/keep'
+require_relative 'expression/classes/literal'
+require_relative 'expression/classes/posix_class'
+require_relative 'expression/classes/root'
+require_relative 'expression/classes/unicode_property'
+require_relative 'expression/methods/construct'
+require_relative 'expression/methods/escape_sequence_char'
+require_relative 'expression/methods/escape_sequence_codepoint'
+require_relative 'expression/methods/human_name'
+require_relative 'expression/methods/match'
+require_relative 'expression/methods/match_length'
+require_relative 'expression/methods/negative'
+require_relative 'expression/methods/options'
+require_relative 'expression/methods/parts'
+require_relative 'expression/methods/printing'
+require_relative 'expression/methods/referenced_expressions'
+require_relative 'expression/methods/strfregexp'
+require_relative 'expression/methods/tests'
+require_relative 'expression/methods/traverse'

data/lib/regexp_parser/lexer.rb CHANGED Viewed

@@ -1,3 +1,5 @@
+# frozen_string_literal: true
 # A very thin wrapper around the scanner that breaks quantified literal runs,
 # collects emitted tokens into an array, calculates their nesting depth, and
 # normalizes tokens for the parser, and checks if they are implemented by the

data/lib/regexp_parser/parser.rb CHANGED Viewed

@@ -1,5 +1,7 @@
-require 'regexp_parser/error'
-require 'regexp_parser/expression'
+# frozen_string_literal: true
+require_relative 'error'
+require_relative 'expression'
 class Regexp::Parser
   include Regexp::Expression
@@ -319,6 +321,7 @@ class Regexp::Parser
     when :codepoint_list; node << EscapeSequence::CodepointList.new(token, active_opts)
     when :hex;            node << EscapeSequence::Hex.new(token, active_opts)
     when :octal;          node << EscapeSequence::Octal.new(token, active_opts)
+    when :utf8_hex;       node << EscapeSequence::UTF8Hex.new(token, active_opts)
     when :control
       if token.text =~ /\A(?:\\C-\\M|\\c\\M)/
@@ -467,6 +470,7 @@ class Regexp::Parser
     when *UPTokens::Age;          node << UP::Age.new(token, active_opts)
     when *UPTokens::Derived;      node << UP::Derived.new(token, active_opts)
     when *UPTokens::Emoji;        node << UP::Emoji.new(token, active_opts)
+    when *UPTokens::Enumerated;   node << UP::Enumerated.new(token, active_opts)
     when *UPTokens::Script;       node << UP::Script.new(token, active_opts)
     when *UPTokens::UnicodeBlock; node << UP::Block.new(token, active_opts)
@@ -574,21 +578,24 @@ class Regexp::Parser
     options_stack.last
   end
-  # Assigns referenced expressions to refering expressions, e.g. if there is
+  # Assigns referenced expressions to referring expressions, e.g. if there is
   # an instance of Backreference::Number, its #referenced_expression is set to
   # the instance of Group::Capture that it refers to via its number.
   def assign_referenced_expressions
-    # find all referencable and refering expressions
-    targets = { 0 => root }
+    # find all referenceable and referring expressions
+    targets = { 0 => [root] }
     referrers = []
     root.each_expression do |exp|
-      exp.is_a?(Group::Capture) && targets[exp.identifier] = exp
-      referrers << exp if exp.referential?
+      if exp.referential?
+        referrers << exp
+      elsif exp.is_a?(Group::Capture)
+        (targets[exp.identifier] ||= []) << exp
+      end
     end
-    # assign reference expression to refering expressions
+    # assign referenced expressions to referring expressions
     # (in a second iteration because there might be forward references)
     referrers.each do |exp|
-      exp.referenced_expression = targets[exp.reference] ||
+      exp.referenced_expressions = targets[exp.reference] ||
         raise(ParserError, "Invalid reference #{exp.reference} at pos #{exp.ts}")
     end
   end

data/lib/regexp_parser/scanner/errors/premature_end_error.rb CHANGED Viewed

@@ -1,3 +1,5 @@
+# frozen_string_literal: true
 class Regexp::Scanner
   # Unexpected end of pattern
   class PrematureEndError < ScannerError

data/lib/regexp_parser/scanner/errors/scanner_error.rb CHANGED Viewed

@@ -1,4 +1,6 @@
-require 'regexp_parser/error'
+# frozen_string_literal: true
+require_relative '../../../regexp_parser/error'
 class Regexp::Scanner
   # General scanner error (catch all)

data/lib/regexp_parser/scanner/errors/validation_error.rb CHANGED Viewed

@@ -1,3 +1,5 @@
+# frozen_string_literal: true
 class Regexp::Scanner
   # Base for all scanner validation errors
   class ValidationError < ScannerError

data/lib/regexp_parser/scanner/properties/long.csv CHANGED Viewed

@@ -8,6 +8,8 @@ age=12.1,age=12.1
 age=13.0,age=13.0
 age=14.0,age=14.0
 age=15.0,age=15.0
+age=15.1,age=15.1
+age=16.0,age=16.0
 age=2.0,age=2.0
 age=2.1,age=2.1
 age=3.0,age=3.0
@@ -102,18 +104,33 @@ extendedpictographic,extended_pictographic
 extender,extender
 finalpunctuation,final_punctuation
 format,format
+garay,garay
 georgian,georgian
 glagolitic,glagolitic
 gothic,gothic
 grantha,grantha
 graph,graph
 graphemebase,grapheme_base
+graphemeclusterbreak=control,grapheme_cluster_break=control
+graphemeclusterbreak=cr,grapheme_cluster_break=cr
+graphemeclusterbreak=extend,grapheme_cluster_break=extend
+graphemeclusterbreak=l,grapheme_cluster_break=l
+graphemeclusterbreak=lf,grapheme_cluster_break=lf
+graphemeclusterbreak=lv,grapheme_cluster_break=lv
+graphemeclusterbreak=lvt,grapheme_cluster_break=lvt
+graphemeclusterbreak=prepend,grapheme_cluster_break=prepend
+graphemeclusterbreak=regionalindicator,grapheme_cluster_break=regional_indicator
+graphemeclusterbreak=spacingmark,grapheme_cluster_break=spacingmark
+graphemeclusterbreak=t,grapheme_cluster_break=t
+graphemeclusterbreak=v,grapheme_cluster_break=v
+graphemeclusterbreak=zwj,grapheme_cluster_break=zwj
 graphemeextend,grapheme_extend
 graphemelink,grapheme_link
 greek,greek
 gujarati,gujarati
 gunjalagondi,gunjala_gondi
 gurmukhi,gurmukhi
+gurungkhema,gurung_khema
 han,han
 hangul,hangul
 hanifirohingya,hanifi_rohingya
@@ -123,11 +140,14 @@ hebrew,hebrew
 hexdigit,hex_digit
 hiragana,hiragana
 hyphen,hyphen
+idcompatmathcontinue,id_compat_math_continue
+idcompatmathstart,id_compat_math_start
 idcontinue,id_continue
 ideographic,ideographic
 idsbinaryoperator,ids_binary_operator
 idstart,id_start
 idstrinaryoperator,ids_trinary_operator
+idsunaryoperator,ids_unary_operator
 imperialaramaic,imperial_aramaic
 inadlam,in_adlam
 inaegeannumbers,in_aegean_numbers
@@ -190,6 +210,7 @@ incjkunifiedideographsextensione,in_cjk_unified_ideographs_extension_e
 incjkunifiedideographsextensionf,in_cjk_unified_ideographs_extension_f
 incjkunifiedideographsextensiong,in_cjk_unified_ideographs_extension_g
 incjkunifiedideographsextensionh,in_cjk_unified_ideographs_extension_h
+incjkunifiedideographsextensioni,in_cjk_unified_ideographs_extension_i
 incombiningdiacriticalmarks,in_combining_diacritical_marks
 incombiningdiacriticalmarksextended,in_combining_diacritical_marks_extended
 incombiningdiacriticalmarksforsymbols,in_combining_diacritical_marks_for_symbols
@@ -223,6 +244,7 @@ induployan,in_duployan
 inearlydynasticcuneiform,in_early_dynastic_cuneiform
 inegyptianhieroglyphformatcontrols,in_egyptian_hieroglyph_format_controls
 inegyptianhieroglyphs,in_egyptian_hieroglyphs
+inegyptianhieroglyphsextendeda,in_egyptian_hieroglyphs_extended_a
 inelbasan,in_elbasan
 inelymaic,in_elymaic
 inemoticons,in_emoticons
@@ -235,6 +257,7 @@ inethiopicextended,in_ethiopic_extended
 inethiopicextendeda,in_ethiopic_extended_a
 inethiopicextendedb,in_ethiopic_extended_b
 inethiopicsupplement,in_ethiopic_supplement
+ingaray,in_garay
 ingeneralpunctuation,in_general_punctuation
 ingeometricshapes,in_geometric_shapes
 ingeometricshapesextended,in_geometric_shapes_extended
@@ -250,6 +273,7 @@ ingreekextended,in_greek_extended
 ingujarati,in_gujarati
 ingunjalagondi,in_gunjala_gondi
 ingurmukhi,in_gurmukhi
+ingurungkhema,in_gurung_khema
 inhalfwidthandfullwidthforms,in_halfwidth_and_fullwidth_forms
 inhangulcompatibilityjamo,in_hangul_compatibility_jamo
 inhanguljamo,in_hangul_jamo
@@ -291,6 +315,7 @@ inkhmer,in_khmer
 inkhmersymbols,in_khmer_symbols
 inkhojki,in_khojki
 inkhudawadi,in_khudawadi
+inkiratrai,in_kirat_rai
 inlao,in_lao
 inlatin1supplement,in_latin_1_supplement
 inlatinextendeda,in_latin_extended_a
@@ -346,6 +371,7 @@ inmusicalsymbols,in_musical_symbols
 inmyanmar,in_myanmar
 inmyanmarextendeda,in_myanmar_extended_a
 inmyanmarextendedb,in_myanmar_extended_b
+inmyanmarextendedc,in_myanmar_extended_c
 innabataean,in_nabataean
 innagmundari,in_nag_mundari
 innandinagari,in_nandinagari
@@ -367,6 +393,7 @@ inoldsogdian,in_old_sogdian
 inoldsoutharabian,in_old_south_arabian
 inoldturkic,in_old_turkic
 inolduyghur,in_old_uyghur
+inolonal,in_ol_onal
 inopticalcharacterrecognition,in_optical_character_recognition
 inoriya,in_oriya
 inornamentaldingbats,in_ornamental_dingbats
@@ -406,6 +433,7 @@ inspacingmodifierletters,in_spacing_modifier_letters
 inspecials,in_specials
 insundanese,in_sundanese
 insundanesesupplement,in_sundanese_supplement
+insunuwar,in_sunuwar
 insuperscriptsandsubscripts,in_superscripts_and_subscripts
 insupplementalarrowsa,in_supplemental_arrows_a
 insupplementalarrowsb,in_supplemental_arrows_b
@@ -419,6 +447,7 @@ insuttonsignwriting,in_sutton_signwriting
 insylotinagri,in_syloti_nagri
 insymbolsandpictographsextendeda,in_symbols_and_pictographs_extended_a
 insymbolsforlegacycomputing,in_symbols_for_legacy_computing
+insymbolsforlegacycomputingsupplement,in_symbols_for_legacy_computing_supplement
 insyriac,in_syriac
 insyriacsupplement,in_syriac_supplement
 intagalog,in_tagalog
@@ -441,8 +470,10 @@ inthai,in_thai
 intibetan,in_tibetan
 intifinagh,in_tifinagh
 intirhuta,in_tirhuta
+intodhri,in_todhri
 intoto,in_toto
 intransportandmapsymbols,in_transport_and_map_symbols
+intulutigalari,in_tulu_tigalari
 inugaritic,in_ugaritic
 inunifiedcanadianaboriginalsyllabics,in_unified_canadian_aboriginal_syllabics
 inunifiedcanadianaboriginalsyllabicsextended,in_unified_canadian_aboriginal_syllabics_extended
@@ -473,6 +504,7 @@ khitansmallscript,khitan_small_script
 khmer,khmer
 khojki,khojki
 khudawadi,khudawadi
+kiratrai,kirat_rai
 lao,lao
 latin,latin
 lepcha,lepcha
@@ -506,6 +538,7 @@ meroiticcursive,meroitic_cursive
 meroitichieroglyphs,meroitic_hieroglyphs
 miao,miao
 modi,modi
+modifiercombiningmark,modifier_combining_mark
 modifierletter,modifier_letter
 modifiersymbol,modifier_symbol
 mongolian,mongolian
@@ -535,6 +568,7 @@ oldsogdian,old_sogdian
 oldsoutharabian,old_south_arabian
 oldturkic,old_turkic
 olduyghur,old_uyghur
+olonal,ol_onal
 openpunctuation,open_punctuation
 oriya,oriya
 osage,osage
@@ -588,6 +622,7 @@ space,space
 spaceseparator,space_separator
 spacingmark,spacing_mark
 sundanese,sundanese
+sunuwar,sunuwar
 surrogate,surrogate
 sylotinagri,syloti_nagri
 symbol,symbol
@@ -609,7 +644,9 @@ tibetan,tibetan
 tifinagh,tifinagh
 tirhuta,tirhuta
 titlecaseletter,titlecase_letter
+todhri,todhri
 toto,toto
+tulutigalari,tulu_tigalari
 ugaritic,ugaritic
 unassigned,unassigned
 unifiedideograph,unified_ideograph

data/lib/regexp_parser/scanner/properties/short.csv CHANGED Viewed

@@ -58,6 +58,7 @@ epres,emoji_presentation
 ethi,ethiopic
 ext,extender
 extpict,extended_pictographic
+gara,garay
 geor,georgian
 glag,glagolitic
 gong,gunjala_gondi
@@ -69,6 +70,7 @@ grek,greek
 grext,grapheme_extend
 grlink,grapheme_link
 gujr,gujarati
+gukh,gurung_khema
 guru,gurmukhi
 hang,hangul
 hani,han
@@ -86,6 +88,7 @@ ideo,ideographic
 ids,id_start
 idsb,ids_binary_operator
 idst,ids_trinary_operator
+idsu,ids_unary_operator
 ital,old_italic
 java,javanese
 joinc,join_control
@@ -96,6 +99,7 @@ khmr,khmer
 khoj,khojki
 kits,khitan_small_script
 knda,kannada
+krai,kirat_rai
 kthi,kaithi
 l,letter
 lana,tai_tham
@@ -121,6 +125,7 @@ mand,mandaic
 mani,manichaean
 marc,marchen
 mc,spacing_mark
+mcm,modifier_combining_mark
 me,enclosing_mark
 medf,medefaidrin
 mend,mende_kikakui
@@ -153,6 +158,7 @@ oids,other_id_start
 olck,ol_chiki
 olower,other_lowercase
 omath,other_math
+onao,ol_onal
 orkh,old_turkic
 orya,oriya
 osge,osage
@@ -207,6 +213,7 @@ sora,sora_sompeng
 soyo,soyombo
 sterm,sentence_terminal
 sund,sundanese
+sunu,sunuwar
 sylo,syloti_nagri
 syrc,syriac
 tagb,tagbanwa
@@ -224,6 +231,8 @@ thaa,thaana
 tibt,tibetan
 tirh,tirhuta
 tnsa,tangsa
+todr,todhri
+tutg,tulu_tigalari
 ugar,ugaritic
 uideo,unified_ideograph
 vaii,vai

data/lib/regexp_parser/scanner/scanner.rl CHANGED Viewed

@@ -37,7 +37,8 @@
   octal_sequence        = [0-7]{1,3};
   hex_sequence          = 'x' . xdigit{1,2};
-  hex_sequence_err      = 'x' . [^0-9a-fA-F{];
+  hex_sequence_err      = 'x' . [^0-9A-Fa-f];
+  high_hex_sequence     = 'x' . [89A-Fa-f] . xdigit . ( '\\x' . [89A-Fa-f] . xdigit )*;
   codepoint_single      = 'u' . xdigit{4};
   codepoint_list        = 'u{' . xdigit{1,6} . (space . xdigit{1,6})* . '}';
@@ -78,8 +79,8 @@
   # try to treat every other group head as options group, like Ruby
   group_options         = '?' . ( [^!#'():<=>~]+ . ':'? ) ?;
-  group_name_id_ab      = ([^!0-9\->] | utf8_multibyte) . ([^>] | utf8_multibyte)*;
-  group_name_id_sq      = ([^0-9\-']  | utf8_multibyte) . ([^'] | utf8_multibyte)*;
+  group_name_id_ab      = ([^!=0-9\->] | utf8_multibyte) . ([^>] | utf8_multibyte)*;
+  group_name_id_sq      = ([^0-9\-']   | utf8_multibyte) . ([^'] | utf8_multibyte)*;
   group_number          = '-'? . [0-9]+;
   group_level           = [+\-] . [0-9]+;
@@ -210,7 +211,7 @@
         type = :nonposixclass
       end
-      unless self.class.posix_classes.include?(class_name)
+      unless POSIX_CLASSES[class_name]
         raise ValidationError.for(:posix_class, text)
       end
@@ -246,7 +247,7 @@
     # Treat all remaining escapes - those not supported in sets - as literal.
     # (This currently includes \^, \-, \&, \:, although these could potentially
     # be meta chars when not escaped, depending on their position in the set.)
-    any > (escaped_set_alpha, 1) {
+    (any | utf8_multibyte) > (escaped_set_alpha, 1) {
       emit(:escape, :literal, copy(data, ts-1, te))
       fret;
     };
@@ -256,9 +257,21 @@
   # escape sequence scanner
   # --------------------------------------------------------------------------
   escape_sequence := |*
-    [1-9] {
+    [1-9] . [0-9]* {
       text = copy(data, ts-1, te)
-      emit(:backref, :number, text)
+      # If not enough groups have been opened, there is a fallback to either an
+      # octal or literal interpretation for 2+ digit numerical escapes.
+      digits = text[1..-1]
+      if digits.size == 1 || digits.to_i <= capturing_group_count
+        emit(:backref, :number, text)
+      elsif digits =~ /\A[0-7]{2,}\z/
+        emit(:escape, :octal, text)
+      else
+        emit(:escape, :literal, text[0..1])
+        emit(:literal, :literal, text[2..-1])
+      end
       fret;
     };
@@ -267,6 +280,13 @@
       fret;
     };
+    [8-9] . [0-9] { # special case, emits two tokens
+      text = copy(data, ts-1, te)
+      emit(:escape, :literal, text[0, 2])
+      emit(:literal, :literal, text[2])
+      fret;
+    };
     meta_char {
       case text = copy(data, ts-1, te)
       when '\.';  emit(:escape, :dot,               text)
@@ -314,6 +334,16 @@
       fret;
     };
+    high_hex_sequence > (escaped_alpha, 5) {
+      text = copy(data, ts-1, te)
+      if regexp_encoding == Encoding::BINARY
+        text.split(/(?=\\)/).each { |part| emit(:escape, :hex, part) }
+      else
+        emit(:escape, :utf8_hex, text)
+      end
+      fret;
+    };
     hex_sequence > (escaped_alpha, 5) @eof(premature_end_error) {
       emit(:escape, :hex, copy(data, ts-1, te))
       fret;
@@ -357,6 +387,7 @@
   conditional_expression := |*
     group_lookup . ')' {
       text = copy(data, ts, te-1)
+      text =~ /[^0]/ or raise ValidationError.for(:backref, 'condition', 'invalid ref ID')
       emit(:conditional, :condition, text)
       emit(:conditional, :condition_close, ')')
     };
@@ -506,6 +537,7 @@
     };
     group_open @group_opened {
+      self.capturing_group_count = capturing_group_count + 1
       text = copy(data, ts, te)
       emit(:group, :capture, text)
     };
@@ -534,13 +566,13 @@
       case text = copy(data, ts, te)
       when /^\\k(.)[^0-9\-][^+\-]*['>]$/
         emit(:backref, $1 == '<' ? :name_ref_ab : :name_ref_sq, text)
-      when /^\\k(.)[1-9]\d*['>]$/
+      when /^\\k(.)0*[1-9]\d*['>]$/
         emit(:backref, $1 == '<' ? :number_ref_ab : :number_ref_sq, text)
-      when /^\\k(.)-[1-9]\d*['>]$/
+      when /^\\k(.)-0*[1-9]\d*['>]$/
         emit(:backref, $1 == '<' ? :number_rel_ref_ab : :number_rel_ref_sq, text)
       when /^\\k(.)[^0-9\-].*[+\-]\d+['>]$/
         emit(:backref, $1 == '<' ? :name_recursion_ref_ab : :name_recursion_ref_sq, text)
-      when /^\\k(.)-?[1-9]\d*[+\-]\d+['>]$/
+      when /^\\k(.)-?0*[1-9]\d*[+\-]\d+['>]$/
         emit(:backref, $1 == '<' ? :number_recursion_ref_ab : :number_recursion_ref_sq, text)
       else
         raise ValidationError.for(:backref, 'backreference', 'invalid ref ID')
@@ -553,9 +585,9 @@
       case text = copy(data, ts, te)
       when /^\\g(.)[^0-9+\-].*['>]$/
         emit(:backref, $1 == '<' ? :name_call_ab : :name_call_sq, text)
-      when /^\\g(.)\d+['>]$/
+      when /^\\g(.)(?:0|0*[1-9]\d*)['>]$/
         emit(:backref, $1 == '<' ? :number_call_ab : :number_call_sq, text)
-      when /^\\g(.)[+-]\d+/
+      when /^\\g(.)[+-]0*[1-9]\d*/
         emit(:backref, $1 == '<' ? :number_rel_call_ab : :number_rel_call_sq, text)
       else
         raise ValidationError.for(:backref, 'subexpression call', 'invalid ref ID')
@@ -632,9 +664,9 @@
   *|;
 }%%
-require 'regexp_parser/scanner/errors/scanner_error'
-require 'regexp_parser/scanner/errors/premature_end_error'
-require 'regexp_parser/scanner/errors/validation_error'
+require_relative 'scanner/errors/scanner_error'
+require_relative 'scanner/errors/premature_end_error'
+require_relative 'scanner/errors/validation_error'
 class Regexp::Scanner
   # Scans the given regular expression text, or Regexp object and collects the
@@ -654,6 +686,7 @@ class Regexp::Scanner
     input = input_object.is_a?(Regexp) ? input_object.source : input_object
     self.free_spacing = free_spacing?(input_object, options)
+    self.regexp_encoding = extract_encoding(input_object, options)
     self.spacing_stack = [{:free_spacing => free_spacing, :depth => 0}]
     data  = input.unpack("c*")
@@ -664,6 +697,7 @@ class Regexp::Scanner
     self.set_depth = 0
     self.group_depth = 0
+    self.capturing_group_count = 0
     self.conditional_stack = []
     self.char_pos = 0
@@ -703,10 +737,11 @@ class Regexp::Scanner
     File.read("#{__dir__}/scanner/properties/#{name}.csv").scan(/(.+),(.+)/).to_h
   end
-  def self.posix_classes
+  # Use each_with_object for required_ruby_version >= 2.2, or #to_h for >= 2.6
+  POSIX_CLASSES =
     %w[alnum alpha ascii blank cntrl digit graph
        lower print punct space upper word xdigit]
-  end
+      .inject({}) { |o, e| o.merge(e => true) }.freeze
   # Emits an array with the details of the scanned pattern
   def emit(type, token, text)
@@ -734,16 +769,25 @@ class Regexp::Scanner
     end
   end
-  attr_accessor :literal_run # only public for #||= to work on ruby <= 2.5
+  attr_accessor :capturing_group_count, :literal_run # only public for #||= to work on ruby <= 2.5
   private
   attr_accessor :block,
                 :collect_tokens, :tokens, :prev_token,
                 :free_spacing, :spacing_stack,
+                :regexp_encoding,
                 :group_depth, :set_depth, :conditional_stack,
                 :char_pos
+  def extract_encoding(input_object, options)
+    if input_object.is_a?(::Regexp)
+      input_object.encoding
+    elsif options && (options & Regexp::NOENCODING)
+      Encoding::BINARY
+    end
+  end
   def free_spacing?(input_object, options)
     if options && !input_object.is_a?(String)
       raise ArgumentError, 'options cannot be supplied unless scanning a String'