RubyGems - regexp_parser - Versions diffs - 2.1.1 → 2.5.0 - Mend

regexp_parser 2.1.1 → 2.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (154) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +94 -6
data/Gemfile +2 -1
data/LICENSE +1 -1
data/README.md +40 -30
data/Rakefile +6 -70
data/lib/regexp_parser/error.rb +1 -1
data/lib/regexp_parser/expression/base.rb +75 -0
data/lib/regexp_parser/expression/classes/anchor.rb +0 -2
data/lib/regexp_parser/expression/classes/{backref.rb → backreference.rb} +1 -0
data/lib/regexp_parser/expression/classes/{set → character_set}/intersection.rb +0 -0
data/lib/regexp_parser/expression/classes/{set → character_set}/range.rb +2 -2
data/lib/regexp_parser/expression/classes/{set.rb → character_set.rb} +2 -2
data/lib/regexp_parser/expression/classes/{type.rb → character_type.rb} +0 -2
data/lib/regexp_parser/expression/classes/conditional.rb +2 -2
data/lib/regexp_parser/expression/classes/{escape.rb → escape_sequence.rb} +13 -7
data/lib/regexp_parser/expression/classes/free_space.rb +1 -3
data/lib/regexp_parser/expression/classes/group.rb +6 -6
data/lib/regexp_parser/expression/classes/keep.rb +2 -0
data/lib/regexp_parser/expression/classes/literal.rb +1 -5
data/lib/regexp_parser/expression/classes/root.rb +3 -6
data/lib/regexp_parser/expression/classes/{property.rb → unicode_property.rb} +1 -2
data/lib/regexp_parser/expression/methods/construct.rb +43 -0
data/lib/regexp_parser/expression/methods/match_length.rb +1 -1
data/lib/regexp_parser/expression/methods/strfregexp.rb +1 -1
data/lib/regexp_parser/expression/methods/tests.rb +10 -1
data/lib/regexp_parser/expression/quantifier.rb +41 -23
data/lib/regexp_parser/expression/sequence.rb +9 -24
data/lib/regexp_parser/expression/sequence_operation.rb +2 -2
data/lib/regexp_parser/expression/shared.rb +85 -0
data/lib/regexp_parser/expression/subexpression.rb +11 -8
data/lib/regexp_parser/expression.rb +10 -132
data/lib/regexp_parser/lexer.rb +8 -6
data/lib/regexp_parser/parser.rb +21 -72
data/lib/regexp_parser/scanner/properties/long.csv +622 -0
data/lib/regexp_parser/scanner/properties/short.csv +246 -0
data/lib/regexp_parser/scanner/property.rl +1 -1
data/lib/regexp_parser/scanner/scanner.rl +48 -35
data/lib/regexp_parser/scanner.rb +735 -801
data/lib/regexp_parser/syntax/any.rb +2 -7
data/lib/regexp_parser/syntax/base.rb +91 -66
data/lib/regexp_parser/syntax/token/anchor.rb +15 -0
data/lib/regexp_parser/syntax/{tokens → token}/assertion.rb +2 -2
data/lib/regexp_parser/syntax/token/backreference.rb +30 -0
data/lib/regexp_parser/syntax/{tokens → token}/character_set.rb +2 -2
data/lib/regexp_parser/syntax/{tokens → token}/character_type.rb +3 -3
data/lib/regexp_parser/syntax/{tokens → token}/conditional.rb +3 -3
data/lib/regexp_parser/syntax/token/escape.rb +31 -0
data/lib/regexp_parser/syntax/{tokens → token}/group.rb +7 -7
data/lib/regexp_parser/syntax/{tokens → token}/keep.rb +1 -1
data/lib/regexp_parser/syntax/{tokens → token}/meta.rb +2 -2
data/lib/regexp_parser/syntax/{tokens → token}/posix_class.rb +3 -3
data/lib/regexp_parser/syntax/token/quantifier.rb +35 -0
data/lib/regexp_parser/syntax/token/unicode_property.rb +717 -0
data/lib/regexp_parser/syntax/token.rb +45 -0
data/lib/regexp_parser/syntax/version_lookup.rb +20 -29
data/lib/regexp_parser/syntax/versions/1.8.6.rb +13 -20
data/lib/regexp_parser/syntax/versions/1.9.1.rb +10 -17
data/lib/regexp_parser/syntax/versions/1.9.3.rb +3 -10
data/lib/regexp_parser/syntax/versions/2.0.0.rb +8 -15
data/lib/regexp_parser/syntax/versions/2.2.0.rb +3 -9
data/lib/regexp_parser/syntax/versions/2.3.0.rb +3 -9
data/lib/regexp_parser/syntax/versions/2.4.0.rb +3 -9
data/lib/regexp_parser/syntax/versions/2.4.1.rb +2 -8
data/lib/regexp_parser/syntax/versions/2.5.0.rb +3 -9
data/lib/regexp_parser/syntax/versions/2.6.0.rb +3 -9
data/lib/regexp_parser/syntax/versions/2.6.2.rb +3 -9
data/lib/regexp_parser/syntax/versions/2.6.3.rb +3 -9
data/lib/regexp_parser/syntax/versions/3.1.0.rb +4 -0
data/lib/regexp_parser/syntax/versions/3.2.0.rb +4 -0
data/lib/regexp_parser/syntax/versions.rb +1 -1
data/lib/regexp_parser/syntax.rb +1 -1
data/lib/regexp_parser/token.rb +9 -20
data/lib/regexp_parser/version.rb +1 -1
data/lib/regexp_parser.rb +0 -2
data/regexp_parser.gemspec +20 -22
metadata +37 -166
data/lib/regexp_parser/scanner/properties/long.yml +0 -594
data/lib/regexp_parser/scanner/properties/short.yml +0 -237
data/lib/regexp_parser/syntax/tokens/anchor.rb +0 -15
data/lib/regexp_parser/syntax/tokens/backref.rb +0 -24
data/lib/regexp_parser/syntax/tokens/escape.rb +0 -30
data/lib/regexp_parser/syntax/tokens/quantifier.rb +0 -35
data/lib/regexp_parser/syntax/tokens/unicode_property.rb +0 -675
data/lib/regexp_parser/syntax/tokens.rb +0 -45
data/spec/expression/base_spec.rb +0 -104
data/spec/expression/clone_spec.rb +0 -152
data/spec/expression/conditional_spec.rb +0 -89
data/spec/expression/free_space_spec.rb +0 -27
data/spec/expression/methods/match_length_spec.rb +0 -161
data/spec/expression/methods/match_spec.rb +0 -25
data/spec/expression/methods/strfregexp_spec.rb +0 -224
data/spec/expression/methods/tests_spec.rb +0 -99
data/spec/expression/methods/traverse_spec.rb +0 -161
data/spec/expression/options_spec.rb +0 -128
data/spec/expression/subexpression_spec.rb +0 -50
data/spec/expression/to_h_spec.rb +0 -26
data/spec/expression/to_s_spec.rb +0 -108
data/spec/lexer/all_spec.rb +0 -22
data/spec/lexer/conditionals_spec.rb +0 -53
data/spec/lexer/delimiters_spec.rb +0 -68
data/spec/lexer/escapes_spec.rb +0 -14
data/spec/lexer/keep_spec.rb +0 -10
data/spec/lexer/literals_spec.rb +0 -64
data/spec/lexer/nesting_spec.rb +0 -99
data/spec/lexer/refcalls_spec.rb +0 -60
data/spec/parser/all_spec.rb +0 -43
data/spec/parser/alternation_spec.rb +0 -88
data/spec/parser/anchors_spec.rb +0 -17
data/spec/parser/conditionals_spec.rb +0 -179
data/spec/parser/errors_spec.rb +0 -30
data/spec/parser/escapes_spec.rb +0 -121
data/spec/parser/free_space_spec.rb +0 -130
data/spec/parser/groups_spec.rb +0 -108
data/spec/parser/keep_spec.rb +0 -6
data/spec/parser/options_spec.rb +0 -28
data/spec/parser/posix_classes_spec.rb +0 -8
data/spec/parser/properties_spec.rb +0 -115
data/spec/parser/quantifiers_spec.rb +0 -68
data/spec/parser/refcalls_spec.rb +0 -117
data/spec/parser/set/intersections_spec.rb +0 -127
data/spec/parser/set/ranges_spec.rb +0 -111
data/spec/parser/sets_spec.rb +0 -178
data/spec/parser/types_spec.rb +0 -18
data/spec/scanner/all_spec.rb +0 -18
data/spec/scanner/anchors_spec.rb +0 -21
data/spec/scanner/conditionals_spec.rb +0 -128
data/spec/scanner/delimiters_spec.rb +0 -52
data/spec/scanner/errors_spec.rb +0 -67
data/spec/scanner/escapes_spec.rb +0 -64
data/spec/scanner/free_space_spec.rb +0 -165
data/spec/scanner/groups_spec.rb +0 -61
data/spec/scanner/keep_spec.rb +0 -10
data/spec/scanner/literals_spec.rb +0 -39
data/spec/scanner/meta_spec.rb +0 -18
data/spec/scanner/options_spec.rb +0 -36
data/spec/scanner/properties_spec.rb +0 -64
data/spec/scanner/quantifiers_spec.rb +0 -25
data/spec/scanner/refcalls_spec.rb +0 -55
data/spec/scanner/sets_spec.rb +0 -151
data/spec/scanner/types_spec.rb +0 -14
data/spec/spec_helper.rb +0 -16
data/spec/support/runner.rb +0 -42
data/spec/support/shared_examples.rb +0 -77
data/spec/support/warning_extractor.rb +0 -60
data/spec/syntax/syntax_spec.rb +0 -48
data/spec/syntax/syntax_token_map_spec.rb +0 -23
data/spec/syntax/versions/1.8.6_spec.rb +0 -17
data/spec/syntax/versions/1.9.1_spec.rb +0 -10
data/spec/syntax/versions/1.9.3_spec.rb +0 -9
data/spec/syntax/versions/2.0.0_spec.rb +0 -13
data/spec/syntax/versions/2.2.0_spec.rb +0 -9
data/spec/syntax/versions/aliases_spec.rb +0 -37
data/spec/token/token_spec.rb +0 -85

data/lib/regexp_parser/scanner/properties/short.csv ADDED Viewed

@@ -0,0 +1,246 @@
+# THIS FILE IS AUTO-GENERATED BY `rake props:update` - DO NOT EDIT
+adlm,adlam
+aghb,caucasian_albanian
+ahex,ascii_hex_digit
+arab,arabic
+armi,imperial_aramaic
+armn,armenian
+avst,avestan
+bali,balinese
+bamu,bamum
+bass,bassa_vah
+batk,batak
+beng,bengali
+bhks,bhaiksuki
+bidic,bidi_control
+bopo,bopomofo
+brah,brahmi
+brai,braille
+bugi,buginese
+buhd,buhid
+c,other
+cakm,chakma
+cans,canadian_aboriginal
+cari,carian
+cc,control
+cf,format
+cher,cherokee
+chrs,chorasmian
+ci,case_ignorable
+cn,unassigned
+co,private_use
+combiningmark,mark
+copt,coptic
+cpmn,cypro_minoan
+cprt,cypriot
+cs,surrogate
+cwcf,changes_when_casefolded
+cwcm,changes_when_casemapped
+cwl,changes_when_lowercased
+cwt,changes_when_titlecased
+cwu,changes_when_uppercased
+cyrl,cyrillic
+dep,deprecated
+deva,devanagari
+di,default_ignorable_code_point
+dia,diacritic
+diak,dives_akuru
+dogr,dogra
+dsrt,deseret
+dupl,duployan
+ebase,emoji_modifier_base
+ecomp,emoji_component
+egyp,egyptian_hieroglyphs
+elba,elbasan
+elym,elymaic
+emod,emoji_modifier
+epres,emoji_presentation
+ethi,ethiopic
+ext,extender
+geor,georgian
+glag,glagolitic
+gong,gunjala_gondi
+gonm,masaram_gondi
+goth,gothic
+gran,grantha
+grbase,grapheme_base
+grek,greek
+grext,grapheme_extend
+grlink,grapheme_link
+gujr,gujarati
+guru,gurmukhi
+hang,hangul
+hani,han
+hano,hanunoo
+hatr,hatran
+hebr,hebrew
+hex,hex_digit
+hira,hiragana
+hluw,anatolian_hieroglyphs
+hmng,pahawh_hmong
+hmnp,nyiakeng_puachue_hmong
+hung,old_hungarian
+idc,id_continue
+ideo,ideographic
+ids,id_start
+idsb,ids_binary_operator
+idst,ids_trinary_operator
+ital,old_italic
+java,javanese
+joinc,join_control
+kali,kayah_li
+kana,katakana
+khar,kharoshthi
+khmr,khmer
+khoj,khojki
+kits,khitan_small_script
+knda,kannada
+kthi,kaithi
+l,letter
+lana,tai_tham
+laoo,lao
+latn,latin
+lc,cased_letter
+lepc,lepcha
+limb,limbu
+lina,linear_a
+linb,linear_b
+ll,lowercase_letter
+lm,modifier_letter
+lo,other_letter
+loe,logical_order_exception
+lt,titlecase_letter
+lu,uppercase_letter
+lyci,lycian
+lydi,lydian
+m,mark
+mahj,mahajani
+maka,makasar
+mand,mandaic
+mani,manichaean
+marc,marchen
+mc,spacing_mark
+me,enclosing_mark
+medf,medefaidrin
+mend,mende_kikakui
+merc,meroitic_cursive
+mero,meroitic_hieroglyphs
+mlym,malayalam
+mn,nonspacing_mark
+mong,mongolian
+mroo,mro
+mtei,meetei_mayek
+mult,multani
+mymr,myanmar
+n,number
+nand,nandinagari
+narb,old_north_arabian
+nbat,nabataean
+nchar,noncharacter_code_point
+nd,decimal_number
+nkoo,nko
+nl,letter_number
+no,other_number
+nshu,nushu
+oalpha,other_alphabetic
+odi,other_default_ignorable_code_point
+ogam,ogham
+ogrext,other_grapheme_extend
+oidc,other_id_continue
+oids,other_id_start
+olck,ol_chiki
+olower,other_lowercase
+omath,other_math
+orkh,old_turkic
+orya,oriya
+osge,osage
+osma,osmanya
+ougr,old_uyghur
+oupper,other_uppercase
+p,punctuation
+palm,palmyrene
+patsyn,pattern_syntax
+patws,pattern_white_space
+pauc,pau_cin_hau
+pc,connector_punctuation
+pcm,prepended_concatenation_mark
+pd,dash_punctuation
+pe,close_punctuation
+perm,old_permic
+pf,final_punctuation
+phag,phags_pa
+phli,inscriptional_pahlavi
+phlp,psalter_pahlavi
+phnx,phoenician
+pi,initial_punctuation
+plrd,miao
+po,other_punctuation
+prti,inscriptional_parthian
+ps,open_punctuation
+qaac,coptic
+qaai,inherited
+qmark,quotation_mark
+ri,regional_indicator
+rjng,rejang
+rohg,hanifi_rohingya
+runr,runic
+s,symbol
+samr,samaritan
+sarb,old_south_arabian
+saur,saurashtra
+sc,currency_symbol
+sd,soft_dotted
+sgnw,signwriting
+shaw,shavian
+shrd,sharada
+sidd,siddham
+sind,khudawadi
+sinh,sinhala
+sk,modifier_symbol
+sm,math_symbol
+so,other_symbol
+sogd,sogdian
+sogo,old_sogdian
+sora,sora_sompeng
+soyo,soyombo
+sterm,sentence_terminal
+sund,sundanese
+sylo,syloti_nagri
+syrc,syriac
+tagb,tagbanwa
+takr,takri
+tale,tai_le
+talu,new_tai_lue
+taml,tamil
+tang,tangut
+tavt,tai_viet
+telu,telugu
+term,terminal_punctuation
+tfng,tifinagh
+tglg,tagalog
+thaa,thaana
+tibt,tibetan
+tirh,tirhuta
+tnsa,tangsa
+ugar,ugaritic
+uideo,unified_ideograph
+vaii,vai
+vith,vithkuqi
+vs,variation_selector
+wara,warang_citi
+wcho,wancho
+wspace,white_space
+xidc,xid_continue
+xids,xid_start
+xpeo,old_persian
+xsux,cuneiform
+yezi,yezidi
+yiii,yi
+z,separator
+zanb,zanabazar_square
+zinh,inherited
+zl,line_separator
+zp,paragraph_separator
+zs,space_separator
+zyyy,common
+zzzz,unknown

data/lib/regexp_parser/scanner/property.rl CHANGED Viewed

@@ -20,7 +20,7 @@
       name = data[ts+2..te-2].pack('c*').gsub(/[\^\s_\-]/, '').downcase
       token = self.class.short_prop_map[name] || self.class.long_prop_map[name]
-      raise UnknownUnicodePropertyError.new(name) unless token
+      validation_error(:property, name) unless token
       self.emit(type, token.to_sym, text)

data/lib/regexp_parser/scanner/scanner.rl CHANGED Viewed

@@ -28,13 +28,7 @@
   comment               = ('#' . [^\n]* . '\n'?);
-  class_name_posix      = 'alnum' | 'alpha' | 'blank' |
-                          'cntrl' | 'digit' | 'graph' |
-                          'lower' | 'print' | 'punct' |
-                          'space' | 'upper' | 'xdigit' |
-                          'word'  | 'ascii';
-  class_posix           = ('[:' . '^'? . class_name_posix . ':]');
+  class_posix           = ('[:' . '^'? . [^\[\]]* . ':]');
   # these are not supported in ruby at the moment
@@ -74,8 +68,7 @@
   quantity_maximum      = ',' . (digit+);
   quantity_range        = (digit+) . ',' . (digit+);
   quantifier_interval   = range_open . ( quantity_exact | quantity_minimum |
-                          quantity_maximum | quantity_range ) . range_close .
-                          quantifier_mode?;
+                          quantity_maximum | quantity_range ) . range_close;
   quantifiers           = quantifier_greedy | quantifier_reluctant |
                           quantifier_possessive | quantifier_interval;
@@ -223,24 +216,28 @@
       fcall character_set;
     };
-    class_posix >(open_bracket, 1) @set_closed @eof(premature_end_error)  {
+    class_posix >(open_bracket, 1) @set_closed @eof(premature_end_error) {
       text = copy(data, ts, te)
       type = :posixclass
       class_name = text[2..-3]
-      if class_name[0].chr == '^'
+      if class_name[0] == '^'
         class_name = class_name[1..-1]
         type = :nonposixclass
       end
+      unless self.class.posix_classes.include?(class_name)
+        validation_error(:posix_class, text)
+      end
       emit(type, class_name.to_sym, text)
     };
     # These are not supported in ruby at the moment. Enable them if they are.
-    # collating_sequence >(open_bracket, 1) @set_closed @eof(premature_end_error)  {
+    # collating_sequence >(open_bracket, 1) @set_closed @eof(premature_end_error) {
     #   emit(:set, :collation, copy(data, ts, te))
     # };
-    # character_equivalent >(open_bracket, 1) @set_closed @eof(premature_end_error)  {
+    # character_equivalent >(open_bracket, 1) @set_closed @eof(premature_end_error) {
     #   emit(:set, :equivalent, copy(data, ts, te))
     # };
@@ -323,7 +320,7 @@
     codepoint_sequence > (escaped_alpha, 6) $eof(premature_end_error) {
       text = copy(data, ts-1, te)
-      if text[2].chr == '{'
+      if text[2] == '{'
         emit(:escape, :codepoint_list, text)
       else
         emit(:escape, :codepoint,      text)
@@ -419,12 +416,12 @@
     backslash . anchor_char > (backslashed, 3) {
       case text = copy(data, ts, te)
-      when '\\A'; emit(:anchor, :bos,                text)
-      when '\\z'; emit(:anchor, :eos,                text)
-      when '\\Z'; emit(:anchor, :eos_ob_eol,         text)
-      when '\\b'; emit(:anchor, :word_boundary,      text)
-      when '\\B'; emit(:anchor, :nonword_boundary,   text)
-      when '\\G'; emit(:anchor, :match_start,        text)
+      when '\A';  emit(:anchor, :bos,                text)
+      when '\z';  emit(:anchor, :eos,                text)
+      when '\Z';  emit(:anchor, :eos_ob_eol,         text)
+      when '\b';  emit(:anchor, :word_boundary,      text)
+      when '\B';  emit(:anchor, :nonword_boundary,   text)
+      when '\G';  emit(:anchor, :match_start,        text)
       end
     };
@@ -477,7 +474,7 @@
     group_open . group_options >group_opened {
       text = copy(data, ts, te)
       if text[2..-1] =~ /([^\-mixdau:]|^$)|-.*([dau])/
-        raise InvalidGroupOption.new($1 || "-#{$2}", text)
+        validation_error(:group_option, $1 || "-#{$2}", text)
       end
       emit_options(text)
     };
@@ -605,7 +602,7 @@
       end
     };
-    quantifier_interval  {
+    quantifier_interval {
       emit(:quantifier, :interval, copy(data, ts, te))
     };
@@ -686,6 +683,7 @@ class Regexp::Scanner
   end
   # Invalid groupOption. Used for inline options.
+  # TODO: should become InvalidGroupOptionError in v3.0.0 for consistency
   class InvalidGroupOption < ValidationError
     def initialize(option, text)
       super "Invalid group option #{option} in #{text}"
@@ -706,6 +704,13 @@ class Regexp::Scanner
     end
   end
+  # The POSIX class name was not recognized by the scanner.
+  class UnknownPosixClassError < ValidationError
+    def initialize(text)
+      super "Unknown POSIX class #{text}"
+    end
+  end
   # Scans the given regular expression text, or Regexp object and collects the
   # emitted token into an array that gets returned at the end. If a block is
   # given, it gets called for each emitted token.
@@ -759,14 +764,21 @@ class Regexp::Scanner
   end
   # lazy-load property maps when first needed
-  require 'yaml'
   def self.short_prop_map
-    @short_prop_map ||= YAML.load_file("#{__dir__}/scanner/properties/short.yml")
+    @short_prop_map ||= parse_prop_map('short')
   end
   def self.long_prop_map
-    @long_prop_map ||= YAML.load_file("#{__dir__}/scanner/properties/long.yml")
+    @long_prop_map ||= parse_prop_map('long')
+  end
+  def self.parse_prop_map(name)
+    File.read("#{__dir__}/scanner/properties/#{name}.csv").scan(/(.+),(.+)/).to_h
+  end
+  def self.posix_classes
+    %w[alnum alpha ascii blank cntrl digit graph
+       lower print punct space upper word xdigit]
   end
   # Emits an array with the details of the scanned pattern
@@ -871,15 +883,16 @@ class Regexp::Scanner
   # Centralizes and unifies the handling of validation related
   # errors.
-  def validation_error(type, what, reason)
-    case type
-    when :group
-      error = InvalidGroupError.new(what, reason)
-    when :backref
-      error = InvalidBackrefError.new(what, reason)
-    when :sequence
-      error = InvalidSequenceError.new(what, reason)
-    end
+  def validation_error(type, what, reason = nil)
+    error =
+      case type
+      when :backref      then InvalidBackrefError.new(what, reason)
+      when :group        then InvalidGroupError.new(what, reason)
+      when :group_option then InvalidGroupOption.new(what, reason)
+      when :posix_class  then UnknownPosixClassError.new(what)
+      when :property     then UnknownUnicodePropertyError.new(what)
+      when :sequence     then InvalidSequenceError.new(what, reason)
+      end
     raise error # unless @@config.validation_ignore
   end