RubyGems - sportdb-parser - Versions diffs - 0.4.0 → 0.5.0 - Mend

sportdb-parser 0.4.0 → 0.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +1 -1
data/README.md +0 -5
data/Rakefile +1 -0
data/lib/sportdb/parser/parser.rb +631 -212
data/lib/sportdb/parser/token-text.rb +1 -1
data/lib/sportdb/parser/token.rb +58 -56
data/lib/sportdb/parser/version.rb +1 -1
data/lib/sportdb/parser.rb +238 -0
metadata +16 -2

data/lib/sportdb/parser/token-text.rb CHANGED Viewed

@@ -54,7 +54,7 @@ TEXT_RE = %r{
                )
               (?:(?:  (?:[ ]
-                     (?!vs?\.?[ ])    ## note - exclude (v[ ]/vs[ ]/v.[ ]/vs.[ ])
+                        (?!vs?[ ])    ## note - exclude (v[ ]/vs[ ])
                        )
                       |     # only single spaces allowed inline!!!
                      [-]

data/lib/sportdb/parser/token.rb CHANGED Viewed

@@ -68,24 +68,41 @@ BASICS_RE = %r{
     (?<vs>
        (?<=[ ])	# Positive lookbehind for space
        (?:
-          vs\.?|   ## allow optional dot (eg. vs. v.)
-          v\.?|
-          -
-       )   # not bigger match first e.g. vs than v etc.
+          vs|v
+       )
+           # not bigger match first e.g. vs than v etc.
+           # todo/fix - make vs|v case sensitive!!! only match v/vs - why? why not?
        (?=[ ])   # positive lookahead for space
     )
        |
+    (?<spaces> [ ]{2,}) |
+    (?<space>  [ ])
+        |
+    (?<sym>[;,@|\[\]-])
+}ix
+## removed from basics
+=begin
     (?<none>
        (?<=[ \[]|^)	 # Positive lookbehind for space or [
            -
         (?=[ ]*;)   # positive lookahead for space
     )
        |
-    (?<spaces> [ ]{2,}) |
-    (?<space>  [ ])
-        |
-    (?<sym>[;,@|\[\]])
-}ix
+   (?<vs>
+       (?<=[ ])	# Positive lookbehind for space
+       (?:
+          vs\.?|   ## allow optional dot (eg. vs. v.)
+          v\.?|
+          -
+       )   # not bigger match first e.g. vs than v etc.
+       (?=[ ])   # positive lookahead for space
+    )
+       |
+    make - into a simple symbol !!!
+=end
 MINUTE_RE = %r{
@@ -141,8 +158,7 @@ end
-def tokenize_with_errors( line, typed: false,
-                                debug: false )
+def tokenize_with_errors( line, debug: false )
   tokens = []
   errors = []   ## keep a list of errors - why? why not?
@@ -180,6 +196,10 @@ def tokenize_with_errors( line, typed: false,
     pp offsets   if debug
+    ##
+    ## note: racc requires pairs e.g. [:TOKEN, VAL]
+    ##         for VAL use "text" or ["text", { opts }]  array
     t = if m[:space]
            ## skip space
            nil
@@ -187,15 +207,17 @@ def tokenize_with_errors( line, typed: false,
            ## skip spaces
            nil
         elsif m[:text]
-          [:text, m[:text]]   ## keep pos - why? why not?
+          [:TEXT, m[:text]]   ## keep pos - why? why not?
         elsif m[:status]   ## (match) status e.g. cancelled, awarded, etc.
+          ## todo/check - add text (or status)
+          #     to opts hash {} by default (for value)
           if m[:status_note]   ## includes note? e.g.  awarded; originally 2-0
-             [:status, m[:status], {note:m[:status_note]}]
+             [:STATUS, [m[:status], {status: m[:status],
+                                     note:   m[:status_note]} ]]
           else
-             [:status, m[:status]]
+             [:STATUS, [m[:status], {status: m[:status] } ]]
           end
         elsif m[:time]
-          if typed
               ## unify to iso-format
               ###   12.40 => 12:40
               ##    12h40 => 12:40 etc.
@@ -208,15 +230,11 @@ def tokenize_with_errors( line, typed: false,
                  (minute >=0 && minute <= 59)
                ## note - for debugging keep (pass along) "literal" time
                ##   might use/add support for am/pm later
-               [:time, m[:time], {h:hour,m:minute}]
+               [:TIME, [m[:time], {h:hour,m:minute}]]
               else
                  raise ArgumentError, "parse error - time >#{m[:time]}< out-of-range"
               end
-          else
-            [:time, m[:time]]
-          end
         elsif m[:date]
-          if typed
             date = {}
 =begin
             ((?<day_name>#{DAY_NAMES})
@@ -237,14 +255,11 @@ def tokenize_with_errors( line, typed: false,
             date[:d]  = m[:day].to_i(10)   if m[:day]
             date[:wday] = DAY_MAP[ m[:day_name].downcase ]   if m[:day_name]
             ## note - for debugging keep (pass along) "literal" date
-            [:date, m[:date], date]
-          else
-            [:date, m[:date]]
-          end
+            [:DATE, [m[:date], date]]
         elsif m[:timezone]
-          [:timezone, m[:timezone]]
+          [:TIMEZONE, m[:timezone]]
         elsif m[:duration]
-          if typed
+            ## todo/check/fix - if end: works for kwargs!!!!!
             duration = { start: {}, end: {}}
             duration[:start][:y] = m[:year1].to_i(10)  if m[:year1]
             duration[:start][:m] = MONTH_MAP[ m[:month_name1].downcase ]   if m[:month_name1]
@@ -255,19 +270,11 @@ def tokenize_with_errors( line, typed: false,
             duration[:end][:d]  = m[:day2].to_i(10)   if m[:day2]
             duration[:end][:wday] = DAY_MAP[ m[:day_name2].downcase ]   if m[:day_name2]
             ## note - for debugging keep (pass along) "literal" duration
-            [:duration, m[:duration], duration]
-          else
-            [:duration, m[:duration]]
-          end
-        elsif m[:num]
-          if typed
+            [:DURATION, [m[:duration], duration]]
+        elsif m[:num]   ## fix - change to ord (for ordinal number!!!)
               ## note -  strip enclosing () and convert to integer
-             [:num, m[:value].to_i(10)]
-          else
-             [:num, m[:num]]
-          end
+             [:ORD, [m[:num], { value: m[:value].to_i(10) } ]]
         elsif m[:score]
-          if typed
               score = {}
               ## check for pen
               score[:p] = [m[:p1].to_i(10),
@@ -280,42 +287,39 @@ def tokenize_with_errors( line, typed: false,
                             m[:ht2].to_i(10)]  if m[:ht1] && m[:ht2]
             ## note - for debugging keep (pass along) "literal" score
-            [:score, m[:score], score]
-          else
-            [:score, m[:score]]
-          end
+            [:SCORE, [m[:score], score]]
         elsif m[:minute]
-          if typed
               minute = {}
               minute[:m]      = m[:value].to_i(10)
               minute[:offset] = m[:value2].to_i(10)   if m[:value2]
              ## note - for debugging keep (pass along) "literal" minute
-             [:minute, m[:minute], minute]
-          else
-             [:minute, m[:minute]]
-          end
+             [:MINUTE, [m[:minute], minute]]
         elsif m[:og]
-          typed  ?  [:og] : [:og, m[:og]]    ## for typed drop - string version/variants
+           [:OG, m[:og]]    ## for typed drop - string version/variants ??  why? why not?
         elsif m[:pen]
-          typed  ?  [:pen] : [:pen, m[:pen]]
+           [:PEN, m[:pen]]
         elsif m[:vs]
-          typed  ?  [:vs] : [:vs, m[:vs]]
-        elsif m[:none]
-          typed  ?  [:none] : [:none, m[:none]]
+           [:VS, m[:vs]]
         elsif m[:sym]
           sym = m[:sym]
           ## return symbols "inline" as is - why? why not?
+          ## (?<sym>[;,@|\[\]-])
           case sym
           when ',' then [:',']
           when ';' then [:';']
           when '@' then [:'@']
           when '|' then [:'|']
+          when '[' then [:'[']
+          when ']' then [:']']
+          when '-' then [:'-']
           else
             nil  ## ignore others (e.g. brackets [])
           end
         else
           ## report error
-          nil
+           puts "!!! TOKENIZE ERROR - no match found"
+           nil
         end
     tokens << t    if t
@@ -342,10 +346,8 @@ end
 ### convience helper - ignore errors by default
-def tokenize(  line, typed: false,
-                     debug: false )
-   tokens, _ = tokenize_with_errors( line, typed: typed,
-                                           debug: debug )
+def tokenize(  line, debug: false )
+   tokens, _ = tokenize_with_errors( line, debug: debug )
    tokens
 end

data/lib/sportdb/parser/version.rb CHANGED Viewed

@@ -3,7 +3,7 @@ module SportDb
   module Module
     module Parser
   MAJOR = 0    ## todo: namespace inside version or something - why? why not??
-  MINOR = 4
+  MINOR = 5
   PATCH = 0
   VERSION = [MAJOR,MINOR,PATCH].join('.')

data/lib/sportdb/parser.rb CHANGED Viewed

@@ -47,5 +47,243 @@ end  # module SportDb
 =end
+module SportDb
+class Tokenizer
+   attr_reader :tokens
+   def initialize( txt )
+      parser = Parser.new
+      tree = []
+      lines = txt.split( "\n" )
+      lines.each_with_index do |line,i|
+          next if line.strip.empty? || line.strip.start_with?( '#' )
+         puts "line >#{line}<"
+         tokens = parser.tokenize( line )
+         pp tokens
+         tree << tokens
+      end
+=begin
+      ## quick hack
+      ##   turn all  text tokens followed by minute token
+      ##     into player tokens!!!
+      ##
+      ##   also auto-convert text tokens into team tokens - why? why not?
+      tree.each do |tokens|
+         tokens.each_with_index do |t0,idx|
+            t1 = tokens[idx+1]
+            if t1 && t1[0] == :minute && t0[0] == :text
+                 t0[0] = :player
+            end
+         end
+      end
+=end
+=begin
+## auto-add/insert start tokens for known line patterns
+##    START_GOALS for  goals_line
+##    why? why not?
+=end
+      ## flatten
+      @tokens = []
+      tree.each do |tokens|
+         @tokens += tokens
+         @tokens  << [:NEWLINE, "\n"]   ## auto-add newlines
+      end
+      ## convert to racc format
+      @tokens = @tokens.map do |tok|
+           if tok.size == 1
+             [tok[0].to_s, tok[0].to_s]
+           elsif tok.size == 2
+ #############
+ ## pass 1
+ ##   replace all texts with keyword matches (e.g. group, round, leg, etc.)
+               if tok[0] == :TEXT
+                  text = tok[1]
+                  tok = if parser.is_group?( text )
+                          [:GROUP, text]
+                        elsif parser.is_round?( text ) || parser.is_leg?( text )
+                          [:ROUND, text]
+                        else
+                          tok  ## pass through as-is (1:1)
+                        end
+               end
+ ## pass 2
+              tok
+       else
+              raise ArgumentError, "tokens of size 1|2 expected; got #{tok.pretty_inspect}"
+           end
+      end
+   end
+   def next_token
+      @tokens.shift
+   end
+ end  # class Tokenizer
+end # module SportDb
+####
+#   RaccMatchParser support machinery (incl. node classes/abstract syntax tree)
+class RaccMatchParser
+GroupDef   = Struct.new( :name, :teams ) do
+  def pretty_print( printer )
+    printer.text( "<GroupDef " )
+    printer.text( self.name )
+    printer.text( " teams=" + self.teams.pretty_inspect )
+    printer.text( ">" )
+  end
+end
+RoundDef   = Struct.new( :name, :date, :duration )  do
+  def pretty_print( printer )
+    printer.text( "<RoundDef " )
+    printer.text( self.name )
+    printer.text( " date=" + self.date.pretty_inspect ) if date
+    printer.text( " durattion=" + self.duration.pretty_inspect ) if duration
+    printer.text( ">" )
+  end
+end
+DateHeader = Struct.new( :date ) do
+  def pretty_print( printer )
+    printer.text( "<DateHeader " )
+    printer.text( "#{self.date.pretty_inspect}>" )
+  end
+end
+GroupHeader = Struct.new( :name ) do
+  def pretty_print( printer )
+    printer.text( "<GroupHeader " )
+    printer.text( "#{self.name}>" )
+  end
+end
+RoundHeader = Struct.new( :names ) do
+  def pretty_print( printer )
+    printer.text( "<RoundHeader " )
+    printer.text( "#{self.names.join(', ')}>" )
+  end
+end
+MatchLine   = Struct.new( :ord, :date, :time,
+                          :team1, :team2, :score,
+                          :geo )  do   ## change to geos - why? why not?
+  def pretty_print( printer )
+    printer.text( "<MatchLine " )
+    printer.text( "#{self.team1} v #{self.team2}")
+    printer.breakable
+    members.zip(values) do |name, value|
+      next if [:team1, :team2].include?( name )
+      next if value.nil?
+      printer.text( "#{name}=#{value.pretty_inspect}" )
+    end
+    printer.text( ">" )
+  end
+end
+GoalLine    = Struct.new( :goals1, :goals2 ) do
+  def pretty_print( printer )
+    printer.text( "<GoalLine " )
+    printer.text( "goals1=" + self.goals1.pretty_inspect + "," )
+    printer.breakable
+    printer.text( "goals2=" + self.goals2.pretty_inspect + ">" )
+  end
+end
+Goal        = Struct.new( :player, :minutes ) do
+  def to_s
+    buf = String.new
+    buf << "#{self.player}"
+    buf << " "
+    buf << minutes.map { |min| min.to_s }.join(' ')
+    buf
+  end
+  def pretty_print( printer )
+    printer.text( to_s )
+  end
+end
+Minute      = Struct.new( :m, :offset, :og, :pen )  do
+    def to_s
+      buf = String.new
+      buf << "#{self.m}"
+      buf << "+#{self.offset}"  if self.offset
+      buf << "'"
+      buf << "(og)"   if self.og
+      buf << "(pen)"  if self.pen
+      buf
+    end
+    def pretty_print( printer )
+       printer.text( to_s )
+    end
+end
+def initialize(input)
+    puts "==> input:"
+    puts input
+    @tokenizer = SportDb::Tokenizer.new(input)
+  end
+  def next_token
+    tok = @tokenizer.next_token
+    puts "next_token => #{tok.pretty_inspect}"
+    tok
+  end
+#  on_error do |error_token_id, error_value, value_stack|
+#      puts "Parse error on token: #{error_token_id}, value: #{error_value}"
+#  end
+  def parse
+     puts "parse:"
+     @tree = []
+     do_parse
+     @tree
+  end
+  def on_error(*args)
+    puts "!! on error:"
+    puts "args=#{args.pretty_inspect}"
+  end
+=begin
+on_error do |error_token_id, error_value, value_stack|
+    puts "Parse error on token: #{error_token_id}, value: #{error_value}"
+end
+=end
+end
 puts SportDb::Module::Parser.banner    # say hello

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: sportdb-parser
 version: !ruby/object:Gem::Version
-  version: 0.4.0
+  version: 0.5.0
 platform: ruby
 authors:
 - Gerald Bauer
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2025-01-02 00:00:00.000000000 Z
+date: 2025-01-15 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: cocos
@@ -38,6 +38,20 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: '0'
+- !ruby/object:Gem::Dependency
+  name: racc
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: rdoc
   requirement: !ruby/object:Gem::Requirement