RubyGems - Kanocc - Versions diffs - 0.1.0 - Mend

Kanocc 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

data/examples/calculator.rb ADDED

@@ -0,0 +1,69 @@
+#!/usr/bin/env ruby
+#require "rubygems"
+$:.unshift("lib")
+require "kanocc.rb"
+require "logger"
+#require "breakpoint"
+# Example use of Kanocc for a small calculator program.
+# It implements the grammar:
+#
+# Program ::=
+#           | Program Expr '\n'R
+# Expr    ::= Expr '+' Expr
+#           | Expr '-' Expr
+#           | Expr '*' Expr
+#           | Expr '/' Expr
+#           | '(' Expr ')'
+#           | Number
+#
+# With the lexical grammar:
+#
+# Number ::= \d+, '(', ')', '+', '-', '*', '/' '\n'
+# ==========  Define a lexical grammar =============
+class Number < Kanocc::Token
+  attr_reader :val
+  setPattern(/\d+/) {@val = eval @m[0]}
+end
+# ==========  Define a grammar =====================
+class Expr < Kanocc::Nonterminal
+  attr_reader :val
+  rule(Expr, "+", Expr)  {@val = @rhs[0].val + @rhs[2].val}
+  rule(Expr, "-", Expr)  {@val = @rhs[0].val - @rhs[2].val}
+  rule(Expr, "*", Expr)  {@val = @rhs[0].val * @rhs[2].val}
+  rule(Expr, "/", Expr)  {@val = @rhs[0].val / @rhs[2].val}
+  rule("(", Expr, ")")   {@val = @rhs[1].val}
+  rule(Number)           {@val = @rhs[0].val}
+  setOperatorPrecedence ['*', '/'], 2
+end
+class Line < Kanocc::Nonterminal
+  rule(Expr, "\n")   { p @rhs[0].val}
+  rule(Kanocc::Error, "\n") do
+    puts "Sorry - didn't understand: #{$source[startPos, endPos-startPos].inspect}"
+  end
+end
+class Program < Kanocc::Nonterminal
+  rule(Program, Line)
+  rule()
+end
+# Make a parser, give it 'Program' as the grammars startsymbol and run
+parser = Kanocc::Kanocc.new(Program)
+#parser.logger.level = Logger::DEBUG
+$source = <<-EOF
+  2 * 3
+  3 - 3 +
+  7 - 2 - 1
+  3 * 2 + 4
+  4 + 3 * 3
+EOF
+parser.parse($source)

data/lib/kanocc.rb ADDED

@@ -0,0 +1,255 @@
+#
+#  Kanocc - Kanocc ain't no compiler-compiler
+#
+require 'kanocc/token'
+require 'kanocc/nonterminal'
+require 'kanocc/scanner'
+require 'kanocc/earley'
+require 'logger'
+# = Kanocc - Kanocc ain't no compiler-compiler
+#
+# Kanocc is a ruby-framework for parsing and translating.
+# Emphasis is on easy, 'scripty' use, and seamless integration with ruby. Performance has been
+# a secondary concern.
+# In it's default configuration, Kanocc uses it's own lexical scanner and a parser
+# based on Earley's algorithm to allow handling of any context-free grammer. It is possible,
+# however, to plug in other lexical scanners or parsers. See ##FIXMEREF.
+#
+# A simple example.
+#
+# Reading and evaluating reverse polish notated expressions. Consider this grammar:
+#
+#    E ::= E E '+'
+#        | E E '-'
+#        | E E '*'
+#        | E E '/'
+#        | NUM
+#
+#    NUM a sequence of digits
+#
+# In Kanocc yout could do it like this:
+#
+#    require "kanocc"
+#
+#    # ==========  Define a lexical grammar =============
+#    class NUM < Kanocc::Token
+#      attr_reader :val
+#      setPattern(/\d+/) { @val = @m[0].to_i}
+#    end
+#
+#    # ==========  Define a grammar =====================
+#    class E < Kanocc::Nonterminal
+#      attr_reader :val
+#      rule(E, E, "+") { @val = @rhs[0].val + @rhs[1].val}
+#      rule(E, E, "-") { @val = @rhs[0].val - @rhs[1].val}
+#      rule(E, E, "*") { @val = @rhs[0].val * @rhs[1].val}
+#      rule(E, E, "/") { @val = @rhs[0].val / @rhs[1].val}
+#      rule(NUM) { @val = @rhs[0].val }
+#    end
+#
+#    # ==========  Set up a parser ======================
+#    myParser = Kanocc::Kanocc.new(E)
+#
+#    # ==========  And try it out =======================
+#    puts "3 4 + 2 - = #{myParser.parse("3 4 + 2 -").val}"
+#
+# and you'd get:
+#
+#    3 4 + 2 - = 5
+#
+# For more examples, please refer to the documentation: ##FIXMEREF
+#
+module Kanocc
+  class Kanocc
+    attr_accessor :scanner, :parser, :logger
+    # Creates a new instance of Kannocc, with the given start symbol.
+    # From the startsymbol, Kanocc will deduce the grammar and the
+    # grammarsymbols
+    #
+    def initialize(startSymbol)
+      @startSymbol = startSymbol
+      @logger = Logger.new(STDOUT)
+      @logger.datetime_format = ""
+      @logger.level = Logger::WARN
+      @scanner = Scanner.new(:logger => @logger)
+      @parser = EarleyParser.new(self, :logger => @logger)
+    end
+    def logger=(logger)
+      @logger = logger || logger.new(STDOUT)
+      @parser.logger = @logger if parser.respond_to?(:logger)
+      @scanner.logger = @logger if scanner.respond_to?(:logger)
+    end
+    def parser=(parser)
+      @parser = parser
+      @parser.logger = @logger if parser.respond_to?(:logger=)
+    end
+    def scanner=(scanner)
+      @scanner = scanner
+      @scanner.logger = @logger if scanner.respond_to?(:logger=)
+    end
+    # Consume input. Kanocc will parse input according to the rules given, and
+    # - if parsing succeeds - return an instance of the grammars start symbol.
+    # Input may be a String or an IO object.
+    def parse(input)
+      raise "Start symbol not defined" unless @startSymbol
+      tellParserStartSymbol(@startSymbol)
+      @parser.prepare
+      @stack = []
+      @inputPos = 0
+      @scanner.eachToken(input) do |tokens, startPos, endPos|
+        @logger.info "got #{show(tokens)} from scanner at #{startPos}, #{endPos}"
+        @logger.debug "Consume " + tokens.inspect if @logger
+        @inputPos += 1
+        @parser.consume(tokens, startPos, endPos)
+      end
+      @parser.eof
+      @stack[0]
+    end
+    def parseFile(file)
+      if file.is_a? String # Then we assume it's a path
+	file = File.open(File.expand_path(file))
+	openedFile = true
+      end
+      input = file.read
+      file.close if openedFile
+      parse(input)
+    end
+    # Define whitespace. By default, Kanocc will recogninze anything that matches
+    # /\s/ as whitespace.
+    # whitespace takes a variable number of arguments, each of which must be a
+    # regular expression.
+    def setWhitespace(*ws)
+      @scanner.setWhitespace(*ws)
+    end
+    # Define which tokens Kanocc should recognize. If this method is not called
+    # Kanocc will scan for those tokens that are mentioned in the grammar.
+    # tokens= takes a variable number of arguments. Each argument must either be
+    # a string or a class which is a subclass of Kanocc::Token
+    def setTokens(*tokens)
+      @scanner.setRecognized(*tokens)
+    end
+    # The parser must call this method when it have decided upon a reduction.
+    # As arguments it should give the rule, by which to reduce.
+    def reportReduction(rule, startPos, endPos)
+      @logger.info "Reducing by " + rule.inspect
+      nonterminal = rule.lhs.new
+      nonterminal.startPos = startPos
+      nonterminal.endPos = endPos
+      rightHandSide = @stack.slice!(-rule.rhs.length, rule.rhs.length)
+      rightHandSide = rightHandSide.map {|e| e.is_a?(List) ? e.elements : e} unless nonterminal.is_a? List
+      if rule.method
+        oldRhs = nonterminal.instance_variable_get('@rhs')
+        nonterminal.instance_variable_set('@rhs', rightHandSide)
+        nonterminal.send(rule.method)
+        nonterminal.instance_variable_set('@rhs', oldRhs)
+      end
+      @stack.push(nonterminal)
+      showStack
+    end
+    # The parser must call this method when it consumes a token
+    # As argument it should give the consumed token and the positions
+    # in the input string corresponding to the token. Positions should be given
+    # as the position of the first character of the token and the position of the
+    # first character after the token.
+    def reportToken(token)
+      @logger.info("Pushing token: " + token.inspect)
+      @stack.push(token)
+      if token.respond_to?("__recognize__")
+        token.__recognize__
+      end
+      showStack
+    end
+    def tellParserStartSymbol(startSymbol)
+      @parser.startSymbol = startSymbol
+      bagOfTerminals = {}
+      findTokens(startSymbol, bagOfTerminals)
+      @logger.debug "tokens = " + bagOfTerminals.keys.inspect
+      strings = bagOfTerminals.keys.find_all{|ter| ter.is_a? String}
+      @logger.info("Literals: " + strings.inspect)
+      tokens = bagOfTerminals.keys.find_all{|ter| ter.is_a? Class and ter.ancestors.member?(Token)}
+      @logger.info("Tokens: " + tokens.inspect)
+      @scanner.setRecognized(*(strings + tokens))
+      # Show rules
+      @logger.info("Rules:")
+      nonterminals = [startSymbol]
+      nonterminals.each do |nonterminal|
+        nonterminal.rules.each do |rule|
+          @logger.info("  " + rule.inspect)
+	  rule.rhs.each do |gs|
+	    if gs.is_a? Class and gs.ancestors.member?(Nonterminal) and not nonterminals.member?(gs)
+	      nonterminals.push(gs)
+	    end
+	  end
+	end
+      end
+    end
+    def findTokens(nonterminal, collectedTokens,  visitedNonterminals = {})
+      unless visitedNonterminals[nonterminal]
+        visitedNonterminals[nonterminal] = true
+        nonterminal.rules.each do |r|
+          r.rhs.each do |gs|
+            if gs.is_a?(Class) and gs.ancestors.member?(Nonterminal)
+              findTokens(gs, collectedTokens, visitedNonterminals)
+            else
+              collectedTokens[gs] = true
+            end
+          end
+        end
+      end
+    end
+    def operatorPrecedence(rule)
+      if operator = rule.operator
+        rule.lhs.operatorPrecedence(operator) || 0
+      else
+        0
+      end
+    end
+    # For debugging
+    def showStack
+      @logger.info("Stack: [" + @stack.map {|gs| show(gs)}.join(", ") + "]" ) if @logger
+    end
+    def show(gs)
+      if gs.is_a?(Nonterminal) or gs.is_a?(Token)
+        gs.class.to_s;
+      elsif gs.is_a?(String)
+        gs.inspect;
+      end
+    end
+  end
+  class ParseException < Exception
+    attr_accessor :inputPos, :inputSymbol, :expected
+    def initialize(inputPos, inputSymbol, expected)
+      @inputPos, @inputSymbol, @expected = inputPos, inputSymbol, expected
+    end
+  end
+  class KanoccException < Exception
+  end
+end

data/lib/kanocc/earley.rb ADDED

@@ -0,0 +1,309 @@
+require 'kanocc/grammar_rule'
+require 'kanocc/token'
+require 'logger'
+module Kanocc
+  #
+  # Parser for Kanocc based on Earleys algorithm. For a description see:
+  # Alfred V. Aho, Jeffrey D. Ullman, The Theory of Parsing, Translation and  Compiling,
+  # or try a web search engine of your choice with 'Earley parsing'
+  #
+  # Earley's parser will parse according to any zcontext-free grammar using O(n*n*n) time
+  # and O(n*n) space, n being the length of input. If the grammar is unambigous time/space
+  # complexity is O(n*n)/O(n*n).
+  # As of yet (version 0.1) the implementation is surely not optimal,
+  # so time/space complexity is probably worse.
+  #
+  # Christian Surlykke 2007.
+  #
+  class EarleyParser
+    attr_accessor :kanocc, :logger
+    ErrorRule = GrammarRule.new(Error, [], nil)
+    def initialize(kanocc, options = {})
+      @kanocc = kanocc
+      @logger = options[:logger] || Logger.new
+    end
+    #
+    # Sets up the parser, creating itemlist 0.
+    #
+    def startSymbol=(startSymbol)
+      @startSymbol = startSymbol
+      @itemLists = [ItemList.new(nil, 0, 0)]
+      @inputPos = 0
+      @recoveryPoints = []
+      @itemLists[0].addAll(@startSymbol.rules.map{|rule| Item.new(rule, 0)})
+      predictAndComplete(0)
+    end
+    def prepare
+      @itemLists = @itemLists[0..0]
+      @inputPos = 0
+      if @recoveryPoints.size > 0 and @recoveryPoints[0] == 0
+        @recoveryPoints = [0]
+      else
+        @recoveryPoints = []
+      end
+      @logger.info("Itemlist 0:\n" + @itemLists[0].inspect) unless not @logger
+    end
+    def scan(terminals)
+      terminals.each do |terminal|
+        @itemLists[@inputPos].addAll(@itemLists[@inputPos - 1].findMatching(terminal).map{|item| item.move})
+      end
+    end
+    def predictAndComplete(pos)
+      itemList = @itemLists[pos]
+      prevSize = 0
+      while prevSize < itemList.size do
+        prevSize = itemList.size
+	itemList.each do |item|
+	  if item.rule.rhs.length <= item.dot
+            # complete
+	    itemList.addAll(@itemLists[item.j].findMatching(item.rule.lhs).map{|item| item.move})
+          elsif (nont = item.rule.rhs[item.dot]).respond_to?(:rules)
+            # predict
+	    itemList.addAll(nont.rules.map {|rule| Item.new(rule, @inputPos)})
+	  end
+        end
+      end
+    end
+    def addRecoveryPoints(pos)
+      if @recoveryPoints[-1] != pos
+	@itemLists[pos].each do |item|
+	  if Error == item.rule.rhs[item.dot]
+	    @recoveryPoints.push(pos)
+	    break
+	  end
+	end
+      end
+    end
+    #
+    # Consume and parse next input symbol
+    #
+    def consume(inputSymbols, startPos, endPos)
+      @inputPos += 1
+      @itemLists.push(ItemList.new(inputSymbols, @inputPos, endPos))
+      # scan, predict and complete until no more can be added
+      scan(inputSymbols)
+      if @itemLists[@inputPos].size == 0
+        @logger.debug("Found no items matching #{inputSymbols} in itemlist #{@inputPos - 1}")
+        @logger.debug("@recoveryPoints = " + @recoveryPoints.inspect)
+        for i in 1..@recoveryPoints.length do
+          if @recoveryPoints[-i] < @inputPos
+            @itemLists[@inputPos - 1].add(Item.new(ErrorRule, @recoveryPoints[-i]))
+            predictAndComplete(@inputPos - 1)
+	    scan(inputSymbols)
+	    break if @itemLists[@inputPos].size > 0
+          end
+        end
+      end
+      predictAndComplete(@inputPos)
+      addRecoveryPoints(@inputPos)
+      @logger.info("Itemlist #{@inputPos}:\n" + @itemLists[@inputPos].inspect) if @logger
+    end
+    #
+    # Signal to the parser that end of input is reached
+    #
+    def eof
+      @logger.debug "--- Parsing done, translating ---"
+      topItem = findFullItems(@startSymbol, @inputPos).find_all {|item| item.j == 0}.min
+      if topItem
+        translate(topItem, @inputPos)
+      else
+        raise(KanoccException, "It didn't parse")
+      end
+    end
+    def translate(element, pos)
+      @logger.debug("translate: " + element.inspect + ", pos = " + pos.inspect)
+      if element.class == Item
+        translateHelper(element, pos)
+        @kanocc.reportReduction(element.rule,
+                                @itemLists[element.j].textPos,
+                                @itemLists[pos].textPos)
+      elsif element.class == Class # Its a token class
+	@kanocc.reportToken(@itemLists[pos].inputSymbol.find {|sym| sym.is_a? element})
+      else # Its a string instance
+        @logger.debug @itemLists[pos].inspect
+        @kanocc.reportToken(element)
+      end
+    end
+    def translateHelper(item, pos)
+      @logger.debug("translateHelper: " + item.inspect)
+      return if item.dot == 0
+      if item.rule.rhs[item.dot - 1].respond_to?("rules")
+        # Assume item is of form [A --> aB�c, k] in itemlist i
+        # Must then find item of form [B --> x�, j] in itemlist i so
+        # that there exists item of form [A --> a�Bc, k] on itemlist j
+        #
+        # First: Items of form [B --> x�, j] on list i
+        candidates = findFullItems(item.rule.rhs[item.dot - 1], pos)
+        # Then: Those for which item of form [A --> a�Bc, k] exists
+        # on list j
+        candidates = candidates.find_all {|subItem|
+          @itemLists[subItem.j].findItem(item.rule, item.dot - 1, item.j)
+        }
+        #####
+        # Precedence handling is somewhat problematic in Earley parsing.
+        # We now have to choose amongst possibly several candidates
+        #
+        # Last: Pick the one with the rule with the _lowest_ precedence
+        # (We are finding reductions top-down, but will evaluate bottom-up, hence
+        # this will make the rule with the _highest_ precedence evaluate first.
+        subItem = candidates.min
+        prevItem = @itemLists[subItem.j].findItem(item.rule, item.dot - 1, item.j)
+        prevList = subItem.j
+      else
+        prevItem = @itemLists[pos - 1].findItem(item.rule, item.dot - 1, item.j)
+        prevList = pos - 1
+        subItem = item.rule.rhs[item.dot - 1]
+      end
+      translateHelper(prevItem, prevList)
+      translate(subItem, pos)
+    end
+    def findFullItems(nonterminal, inputPos)
+      @itemLists[inputPos].find_all do |item|
+        item.rule.lhs == nonterminal and item.dot >= item.rule.rhs.length
+      end
+    end
+    def operatorPrecedence(rule)
+      - (@kanocc.operatorPrecedence(rule))
+    end
+  end
+  class ItemList
+    attr_reader :inputSymbol, :textPos
+    attr_accessor :items
+    def initialize(inputSymbol, inputPos, textPos)
+      @inputPos = inputPos
+      @inputSymbol = inputSymbol
+      @textPos = textPos
+      @items = Hash.new
+    end
+    def copy
+      res = clone
+      res.items = @items.clone
+      return res
+    end
+    def size
+      return @items.size
+    end
+    def find_all(&b)
+      return @items.keys.find_all(&b)
+    end
+    def findItem(rule, dot, j)
+      return @items.keys.find{ |item|
+        item.rule == rule and
+        item.dot == dot and
+        item.j == j
+      }
+    end
+    def eachMatching(inputSymbol)
+      findMatching(inputSymbol).each do |item|
+        yield(item)
+      end
+    end
+    def findMatching(inputSymbol)
+      @items.keys.find_all do |item|
+        inputSymbol === item.symbolAfterDot or inputSymbol == item.symbolAfterDot
+      end
+    end
+    def contains(item)
+      return @items[item]
+    end
+    def add(item)
+      @items.store(item, true)
+    end
+    def addAll(items)
+      items.each {|item| @items.store(item, true)}
+    end
+    def each
+      @items.keys.each do |item|
+        yield item
+      end
+    end
+    def inspect
+      return "[" + @inputSymbol.inspect + "\n " +
+                   @textPos.to_s + "\n " +
+                   @items.keys.map{|item| item.inspect}.join("\n  ") + "]\n"
+    end
+  end
+  class Item
+    attr_reader :rule, :j, :dot
+    @@items = Hash.new
+    def Item.new(rule, j, dot = 0)
+      unless (item = @@items[[rule,j,dot]])
+        item = super(rule, j, dot)
+        @@items.store([rule, j, dot], item)
+      end
+      return item
+    end
+    def symbolAfterDot
+      return @dot < @rule.rhs.size  ? @rule.rhs[@dot] : nil
+    end
+    def initialize(rule, j, dot = 0)
+      @rule = rule
+      @j = j
+      @dot = dot
+    end
+    def move
+      return Item.new(@rule, @j, @dot + 1)
+    end
+    def inspect
+      return "[" +
+      @rule.lhs.inspect + " --> " +
+       (@rule.rhs.slice(0, dot) +
+      [Dot.new] +
+      @rule.rhs.slice(dot, @rule.rhs.length - dot)).map{|symbol| symbol.inspect}.join(" ") +
+              " ; " + @j.to_s + "]"
+    end
+    def <=>(other)
+      tmp = (@rule.prec <=> other.rule.prec)
+      if tmp == 0
+        return other.j <=> @j
+      else
+        return tmp
+      end
+    end
+  end
+  # Just for Item inspect
+  class Dot
+    def inspect
+      return "�"
+    end
+  end
+end

data/lib/kanocc/grammar_rule.rb ADDED

@@ -0,0 +1,36 @@
+module Kanocc
+  class GrammarRule
+    attr_reader :lhs, :rhs, :method, :argPositions
+    attr_accessor :prec
+    def initialize(lhs, rhs, method)
+      @lhs = lhs
+      @rhs = rhs
+      @method = method
+      @logger.debug("#{lhs} --> #{rhs.map {|gs| gs.is_a?(Symbol) ? gs.to_s : gs}.join}, #prec = #{@prec}, method = #{method}") unless not @logger
+    end
+    def operator
+      rhs.find {|s| s.is_a?(String) or s.is_a?(Token)}
+    end
+    def prec=(newPrec)
+      @prec = newPrec
+    end
+    # The precedence of a rule is defined as:
+    # The given precedence
+    # or (if that's not defined) the precedence of the leftmost operator (token)
+    # or (if that's not defined) 0.
+    def prec
+      @prec or
+      ((o = operator) and (@lhs.operatorPrecedence(o))) or
+      0
+    end
+    def inspect
+      return lhs.inspect + " ::= " + rhs.map{|gs| gs.inspect}.join(" ")
+    end
+  end
+end

data/lib/kanocc/nonterminal.rb ADDED

@@ -0,0 +1,158 @@
+require 'kanocc/grammar_rule'
+module Kanocc
+  class Nonterminal
+    attr_accessor :startPos, :endPos
+    @@rules = Hash.new
+    @@lastRule = Hash.new
+    @@derivesRight = Hash.new
+    @@operatorPrecedence = Hash.new
+    @@methodNames = Hash.new
+    Left = 1
+    Right = 2
+    def Nonterminal.derivesRight
+      @@derivesRight[self] = true
+    end
+    def Nonterminal.derivesRight?
+      return @@derivesRight[self]
+    end
+    def Nonterminal.setOperatorPrecedence(operator, precedence)
+      raise "Precedence must be an integer" unless precedence.class == Fixnum
+      @@operatorPrecedence[self] ||= Hash.new
+      if is_an_operator?(operator)
+        @@operatorPrecedence[self][operator] = precedence
+      elsif is_an_array_of_operators(operator)
+        operator.each {|o| @@operatorPrecedence[self][o] = precedence}
+      else
+        raise "Operator must be a string, a token or an array of those"
+      end
+    end
+    def Nonterminal.operatorPrecedence(operator)
+      (@@operatorPrecedence[self] and @@operatorPrecedence[self][operator]) or 0
+    end
+    def Nonterminal.is_an_array_of_operators(arr)
+       arr.is_a?(Array) and
+       arr.collect{|o| is_an_operator?(o)}.inject {|b1, b2| b1 and b2 }
+    end
+    def Nonterminal.is_an_operator?(operator)
+        operator.is_a?(String) or operator.is_a?(Token)
+    end
+    def Nonterminal.rules
+      rules = @@rules[self]
+      return rules ? rules : []
+    end
+    def Nonterminal.addRule(rule)
+      @@rules[self] ||= []
+      @@rules[self].push(rule)
+      @@lastRule[self] = rule
+    end
+    def Nonterminal.is_a_grammarsymbol?(x)
+      x.is_a?(String) or (x.respond_to?("is_a_kanocc_grammarsymbol?") and x.is_a_kanocc_grammarsymbol?)
+    end
+    def Nonterminal.is_a_kanocc_grammarsymbol?
+      return true
+    end
+    def Nonterminal.rule(*rhs, &block)
+      for pos in 0..rhs.length - 1 do
+        unless is_a_grammarsymbol?(rhs[pos])
+          raise "Problem with rule: #{rhs.inspect}, element:#{pos.to_s} - #{rhs[pos].inspect}\nElements of a rule must be Strings, Tokens or Nonterminals"
+        end
+      end
+      if block_given?
+        methodName = generateMethodName(*rhs)
+        define_method(methodName.to_sym, &block)
+        addRule(GrammarRule.new(self, rhs, methodName.to_sym))
+      else
+        addRule(GrammarRule.new(self, rhs, nil))
+      end
+    end
+    def Nonterminal.zm(symbols, sep = nil)
+      listClass = newListClass
+      listClass.rule() {@elements = []}
+      listClass.rule(om(symbols, sep)) {@elements = @rhs[0].elements}
+      return listClass
+    end
+    def Nonterminal.om(symbols, sep = nil)
+      symbols = [symbols] unless symbols.is_a? Array
+      listClass = newListClass
+      listClass.rule(*symbols) {@elements = @rhs}
+      if sep
+        listClass.rule(listClass, sep, *symbols) {@elements = @rhs[0].elements + @rhs[2..@rhs.length]}
+      else
+        listClass.rule(listClass, *symbols) {@elements = @rhs[0].elements + @rhs[1..@rhs.length]}
+      end
+      return listClass
+    end
+    @@listClassNumber = 0
+    def Nonterminal.newListClass
+      listClass = Class.new(List)
+      @@listClassNumber += 1
+      def listClass.inspect
+        return "anonList_#{@@listClassNumber}"
+      end
+      return listClass
+    end
+    def Nonterminal.generateMethodName(*args)
+      methodName = self.name + " --> " + args.map {|a| a.inspect}.join(' ')
+      @@methodNames[self] ||= []
+      i = 1
+      while @@methodNames[self].member?(methodName) do
+        methodName += ' ';
+      end
+      @@methodNames[self].push(methodName)
+      return methodName
+    end
+    def Nonterminal.prec(p)
+      raise "Call to prec not preceded by rule" unless @@lastRule[self]
+      @@lastRule[self].prec = p
+    end
+    def Nonterminal.showMethodNames
+      @@methodNames[self].each{|mn| puts mn.inspect} if @@methodNames[self]
+    end
+  end
+  class List < Nonterminal
+    attr_reader :elements
+        protected
+    # Assumes @rhs[0] is a Kanocc::List and that rhs.length > 1
+    def collect(stripSeparator = false)
+      puts "collect with stripSeparator = #{stripSeparator}"
+      @elements = @rhs[0].elements
+      if stripSeparator
+        @elements = @elements + @rhs[2..@rhs.length]
+      else
+        @elements = @elements + @rhs[1..@rhs.length]
+      end
+      puts "@elements: " + @elements.inspect
+    end
+  end
+  class Error < Nonterminal
+    attr_reader :text
+    def initialize
+      super
+      @text = "FIXME"
+    end
+  end
+end

data/lib/kanocc/scanner.rb ADDED

@@ -0,0 +1,152 @@
+require 'stringio'
+require 'strscan'
+require 'logger'
+module Kanocc
+  class Scanner
+    attr_accessor :logger
+    def initialize(init = {})
+      if init[:logger]
+        @logger = init[:logger]
+      else
+        @logger = Logger.new(STDOUT)
+        @logger.level = Logger::WARN
+      end
+      @wsRegs = [/\s/]
+      @recognizables = []
+      @regexps = []
+    end
+    def setWhitespace(*wsRegs)
+      @wsRegs = []
+      wsRegs.each do |wsReg|
+        unless wsReg.is_a?(Regexp)
+          raise "setWhitespace must be given a list of Regexp's"
+        end
+        @wsRegs << r
+      end
+    end
+    def setRecognized(*rec)
+      @recognizables = []
+      @regexps = []
+      rec.each do |r|
+        @recognizables << r
+        if r.class == Class
+	  @regexps << r.pattern
+        else
+          @regexps << Regexp.compile(Regexp.escape(r))
+        end
+      end
+    end
+    def eachToken(input)
+      if input.is_a?(IO)
+        @input = input.readlines.join("")
+      elsif input.is_a?(String)
+        @input = input
+      else
+        raise "Input must be a string or an IO object"
+      end
+      @stringScanner = StringScanner.new(@input)
+      pos = @stringScanner.pos
+      while tokens = nextToken do
+        @logger.debug("Yielding with #{tokens}, #{pos}, #{@stringScanner.pos}")
+        yield(tokens, pos, @stringScanner.pos)
+	pos = @stringScanner.pos
+      end
+    end
+    private
+    def nextToken
+      while true do
+        if @stringScanner.pos >= @input.length
+          return nil
+	end
+	tokens = matchToken
+	if tokens.size > 0
+          @logger.debug("nextToken returning #{tokens}")
+          return tokens
+        elsif trimWhitespace
+          # Now we've stripped some whitespace, so we go
+          # back and try to match a token again
+          next
+        else
+          # We've not been able to recognize a token or whitespace,
+          # so we emit the first character of the remaining input as a string literal.
+          # With this behavior, lexical scanning cannot fail.
+          res = [@stringScanner.scan(/./m)]
+          @logger.debug("nextToken returning #{res.inspect}")
+          return res
+        end
+      end
+    end
+    def matchToken
+      regPoss = findMatchingReg(@regexps)
+      @logger.debug("matchToken, regPoss = #{regPoss.inspect}");
+      tokens = []
+      str = nil
+      regPoss.each do |i|
+        logger.debug("@recognizables[#{i}] = #{@recognizables[i].inspect}")
+        str = @stringScanner.scan(@regexps[i]) unless str
+	if @recognizables[i].class == Class
+	  @logger.debug("Its a class")
+	  token = @recognizables[i].new(str)
+	  token.m = token.match(str) # To create a proper match object
+	  @logger.debug("token: " + token.inspect)
+	  tokens << token
+	  @logger.debug("tokens: " + tokens.inspect)
+	else
+	  tokens << str
+        end
+      end
+      @logger.debug("matchToken returning: " + tokens.inspect)
+      return tokens
+    end
+    def trimWhitespace
+      wsPoss = findMatchingReg(@wsRegs)
+      if  wsPoss.size > 0
+	@stringScanner.skip(@wsRegs[wsPoss[0]])
+        return true
+      else
+	return false
+      end
+    end
+    def findMatchingReg(arrayOfRegs)
+      @logger.debug("findMatchingReg: arrayOfRegs = #{arrayOfRegs}")
+      maxLength = 0
+      regPoss = []
+      for i in 0..arrayOfRegs.size-1 do
+	len = @stringScanner.match?(arrayOfRegs[i]) || 0
+	if len > maxLength
+	  regPoss = [i]
+	  maxLength = len
+	elsif len == maxLength and len > 0
+	  regPoss << i
+	end
+      end
+      return regPoss
+    end
+  end
+end
+############################################
+#                Testing
+#require 'Token'
+#
+#class Number < Token
+#  setPattern(/\d+/)
+#end
+#
+#scanner = KanoccScanner.new
+#scanner.setRecognized(Number, "Exit")
+#scanner.setWhitespace(/[ \t]/)
+#
+#scanner.eachTokenDo{|token|  print token.inspect, "\n"}

data/lib/kanocc/token.rb ADDED

@@ -0,0 +1,40 @@
+module Kanocc
+  class Token < Regexp
+    attr_reader :str
+    attr_accessor :m
+    @@patterns = Hash.new
+    def initialize(str)
+      @str = str
+      super(@@patterns[self.class])
+    end
+    def ===(klass)
+      self.class == klass
+    end
+    def Token.setPattern(reg, &block)
+      @@patterns[self] = reg
+      if block_given?
+        define_method(:__recognize__, &block)
+      end
+    end
+    def Token.pattern
+      return @@patterns[self]
+    end
+    def is_a_kanocc_token?
+      return true
+    end
+    def Token.is_a_kanocc_grammarsymbol?
+      return true
+    end
+    def inspect
+      self.class.name + "[" + @str + "]"
+    end
+  end
+end

data/lib/todo ADDED

@@ -0,0 +1,3 @@
+Better handling of blocks
+LR Parsers
+Scanner.eachToken method

metadata ADDED

@@ -0,0 +1,61 @@
+--- !ruby/object:Gem::Specification
+name: Kanocc
+version: !ruby/object:Gem::Version
+  version: 0.1.0
+platform: ruby
+authors:
+- Christian Surlykke
+autorequire: kanocc
+bindir: bin
+cert_chain: []
+date: 2008-04-12 00:00:00 +02:00
+default_executable:
+dependencies: []
+description:
+email: ""
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- lib/todo
+- lib/kanocc.rb
+- lib/kanocc
+- lib/kanocc/token.rb
+- lib/kanocc/grammar_rule.rb
+- lib/kanocc/nonterminal.rb
+- lib/kanocc/scanner.rb
+- lib/kanocc/earley.rb
+- examples/calculator.rb
+has_rdoc: false
+homepage: ""
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: "0"
+  version:
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: "0"
+  version:
+requirements: []
+rubyforge_project:
+rubygems_version: 1.0.1
+signing_key:
+specification_version: 2
+summary: Kanocc - Kanocc ain't no compiler-compiler. A framework for syntax directed translation
+test_files: []