RubyGems - anbt-sql-formatter - Versions diffs - 0.0.1 - Mend

anbt-sql-formatter 0.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (29) hide show

data/.gitignore +4 -0
data/Gemfile +4 -0
data/Rakefile +1 -0
data/anbt-sql-formatter.gemspec +24 -0
data/bin/anbt-sql-formatter +50 -0
data/lgpl-2.1.txt +504 -0
data/lib/anbt-sql-formatter/coarse-tokenizer.rb +174 -0
data/lib/anbt-sql-formatter/constants.rb +81 -0
data/lib/anbt-sql-formatter/exception.rb +30 -0
data/lib/anbt-sql-formatter/formatter.rb +409 -0
data/lib/anbt-sql-formatter/helper.rb +73 -0
data/lib/anbt-sql-formatter/parser.rb +327 -0
data/lib/anbt-sql-formatter/rule.rb +121 -0
data/lib/anbt-sql-formatter/token.rb +79 -0
data/lib/anbt-sql-formatter/version.rb +7 -0
data/misc/anbt-sql-formatter-customize-example +65 -0
data/misc/anbt-sql-formatter-for-sakura-editor.js +165 -0
data/readme.ja.txt +107 -0
data/readme.txt +58 -0
data/sample.sql +120 -0
data/setup.rb +1585 -0
data/test/helper.rb +17 -0
data/test/test_coarse-tokenizer.rb +360 -0
data/test/test_formatter.rb +489 -0
data/test/test_helper.rb +23 -0
data/test/test_parser.rb +370 -0
data/test/test_rule.rb +30 -0
data/uninstall.rb +20 -0
metadata +84 -0

data/lib/anbt-sql-formatter/helper.rb ADDED

@@ -0,0 +1,73 @@
+require "pp"
+class Stack
+  include Enumerable
+  def initialize
+    @arr = []
+  end
+  def each
+    @arr.each{|item|
+      yield item
+    }
+  end
+  def clear
+    @arr.clear
+  end
+  def push(o)
+    @arr.push o
+  end
+  def pop
+    @arr.pop
+  end
+end
+class String
+  def endsWith(c)
+    self[-1] == c ? true : false
+  end
+  def startsWith(c)
+    self[0] == c ? true : false
+  end
+  def charAt(n)
+    self[n..n]
+  end
+  def equals(str)
+    self == str
+  end
+  def equalsIgnoreCase(other)
+    self.upcase == other.upcase
+  end
+  def trim
+    self.strip
+  end
+end
+class Array
+  def remove(n)
+    self.delete_at n
+  end
+  def get(n)
+    if n >= self.size || n <= -1
+      raise IndexOutOfBoundsException
+    end
+    self[n]
+  end
+  def add(n,o)
+    self.insert(n,o)
+  end
+end

data/lib/anbt-sql-formatter/parser.rb ADDED

@@ -0,0 +1,327 @@
+# -*- coding: utf-8 -*-
+require "pp"
+require "anbt-sql-formatter/token"
+require "anbt-sql-formatter/constants"
+require "anbt-sql-formatter/helper"
+require "anbt-sql-formatter/coarse-tokenizer"
+class AnbtSql
+  class Parser
+    def initialize(rule)
+      @rule = rule
+      # 解析前の文字列
+      @before = nil
+      # 解析中の位置
+      @pos = nil
+      # 解析中の文字。
+      @char = nil
+      @token_pos = nil
+      # ２文字からなる記号。
+      # なお、|| は文字列結合にあたります。
+      @two_character_symbol = [ "<>", "<=", ">=", "||" ]
+    end
+    ##
+    # 2005.07.26:: Tosiki Iga \r も処理範囲に含める必要があります。
+    # 2005.08.12:: Tosiki Iga 65535(もとは-1)はホワイトスペースとして扱うよう変更します。
+    def space?(c)
+      return c == ' ' ||
+        c == "\t" ||
+        c == "\n" ||
+        c == "\r" ||
+        c == 65535
+    end
+    ##
+    # 文字として認識して妥当かどうかを判定します。
+    # 全角文字なども文字として認識を許容するものと判断します。
+    def letter?(c)
+      return false if space?(c)
+      return false if digit?(c)
+      return false if symbol?(c)
+      true
+    end
+    def digit?(c)
+      return "0" <= c && c <= '9'
+    end
+    ##
+    # "#" は文字列の一部とします
+    # アンダースコアは記号とは扱いません
+    # これ以降の文字の扱いは保留
+    def symbol?(c)
+      %w(" ? % & ' \( \) | * + , - . / : ; < = > ).include? c
+      #"
+    end
+    ##
+    # トークンを次に進めます。
+    # 1. posを進める。
+    # 2. sに結果を返す。
+    # 3. typeにその種類を設定する。
+    # 不正なSQLの場合、例外が発生します。
+    # ここでは、文法チェックは行っていない点に注目してください。
+    def next_sql_token
+      $stderr.puts "next_token #{@pos} <#{@before}> #{@before.length}" if $DEBUG
+      start_pos = @pos
+      if @pos >= @before.length
+        @pos += 1
+        return nil
+      end
+      @char = @before.charAt(@pos)
+      if space?(@char)
+        workString = ""
+        loop {
+          workString += @char
+          @char = @before.charAt(@pos+1)
+          if not space?(@char)
+            @pos += 1
+            return AnbtSql::Token.new(AnbtSql::TokenConstants::SPACE,
+                                        workString, start_pos)
+          end
+          @pos += 1
+          if @pos >= @before.length()
+            return AnbtSql::Token.new(AnbtSql::TokenConstants::SPACE,
+                                        workString, start_pos)
+          end
+        }
+      elsif @char == ";"
+        @pos += 1
+        # 2005.07.26 Tosiki Iga セミコロンは終了扱いではないようにする。
+        return AnbtSql::Token.new(AnbtSql::TokenConstants::SYMBOL,
+                                    ";", start_pos)
+      elsif digit?(@char)
+        if /(0x[0-9a-fA-F]+)/       =~ @before[@pos..-1] || # hex
+           /(\d+(\.\d+(e-?\d+)?)?)/ =~ @before[@pos..-1]    # float or scientific
+          num = $1
+          @pos += num.length
+          return AnbtSql::Token.new(AnbtSql::TokenConstants::VALUE,
+                                    num, start_pos)
+        end
+        s = ""
+        while (digit?(@char) || @char == '.')
+          # if (ch == '.') type = Token.REAL
+          s += @char
+          @pos += 1
+          if (@pos >= @before.length)
+            # 長さを超えている場合には処理中断します。
+            break
+          end
+          @char = @before.charAt(@pos)
+        end
+        return AnbtSql::Token.new(AnbtSql::TokenConstants::VALUE,
+                                    s, start_pos)
+      elsif letter?(@char)
+        s = ""
+        # 文字列中のドットについては、文字列と一体として考える。
+        while (letter?(@char) || digit?(@char) || @char == '.')
+          s += @char
+          @pos += 1
+          if (@pos >= @before.length())
+            break
+          end
+          @char = @before.charAt(@pos)
+        end
+        if AnbtSql::Constants::SQL_RESERVED_WORDS.map{|w| w.upcase }.include?(s.upcase)
+          return AnbtSql::Token.new(AnbtSql::TokenConstants::KEYWORD,
+                                      s, start_pos)
+        end
+        return AnbtSql::Token.new(AnbtSql::TokenConstants::NAME,
+                                    s, start_pos)
+      elsif symbol?(@char)
+        s = "" + @char
+        @pos += 1
+        if (@pos >= @before.length())
+          return AnbtSql::Token.new(AnbtSql::TokenConstants::SYMBOL,
+                                    s, start_pos)
+        end
+        # ２文字の記号かどうか調べる
+        ch2 = @before.charAt(@pos)
+        #for (int i = 0; i < two_character_symbol.length; i++) {
+        for i in 0...@two_character_symbol.length
+          if (@two_character_symbol[i].charAt(0) == @char &&
+              @two_character_symbol[i].charAt(1) == ch2)
+            @pos += 1
+            s += ch2
+            break
+          end
+        end
+        if @char == "-" &&
+          /^(\d+(\.\d+(e-?\d+)?)?)/ =~ @before[@pos..-1] # float or scientific
+          num = $1
+          @pos += num.length
+          return AnbtSql::Token.new(AnbtSql::TokenConstants::VALUE,
+                                    s + num, start_pos)
+        end
+        return AnbtSql::Token.new(AnbtSql::TokenConstants::SYMBOL,
+                                    s, start_pos)
+      else
+        @pos += 1
+        return AnbtSql::Token.new( AnbtSql::TokenConstants::UNKNOWN,
+                                     "" + @char,
+                                     start_pos )
+      end
+    end
+    def prepare_tokens(coarse_tokens)
+      @tokens = []
+      pos = 0
+      while pos < coarse_tokens.size
+        coarse_token = coarse_tokens[pos]
+        case coarse_token._type
+        when :quote_single
+          @tokens << AnbtSql::Token.new(AnbtSql::TokenConstants::VALUE,
+                                          coarse_token.string)
+        when :quote_double
+          @tokens << AnbtSql::Token.new(AnbtSql::TokenConstants::NAME,
+                                          coarse_token.string)
+        when :comment_single
+          @tokens << AnbtSql::Token.new(AnbtSql::TokenConstants::COMMENT,
+                                          coarse_token.string.chomp)
+        when :comment_multi
+          @tokens << AnbtSql::Token.new(AnbtSql::TokenConstants::COMMENT,
+                                          coarse_token.string)
+        when :plain
+          @before = coarse_token.string
+          @pos = 0
+          count = 0
+          loop {
+            token = next_sql_token()
+            if $DEBUG
+              pp "@" * 64, count, token, token.class
+            end
+            # if token._type == AnbtSql::TokenConstants::END_OF_SQL
+            if token == nil
+              break
+            end
+            @tokens.push token
+            count += 1
+          }
+        end
+        pos += 1
+      end
+      @tokens << AnbtSql::Token.new(AnbtSql::TokenConstants::END_OF_SQL,
+                                      "")
+    end
+    ##
+    # ２つ以上並んだキーワードは１つのキーワードとみなします。
+    #     ["a", " ", "group", " ", "by", " ", "b"]
+    #  => ["a", " ", "group by",         " ", "b"]
+    def concat_multiwords_keyword(tokens)
+      temp_kw_list = @rule.kw_multi_words.map{|kw| kw.split(" ") }
+      # ワード数が多い順から
+      temp_kw_list.sort{ |a, b|
+        b.size <=> a.size
+      }.each{|kw|
+        index = 0
+        target_tokens_size = kw.size * 2 - 1
+        while index <= tokens.size - target_tokens_size
+          temp_tokens = tokens[index, target_tokens_size].map {|x|
+            x.string.sub(/\s+/, " ")
+          }
+          if /#{kw.join(" ")}/i =~ temp_tokens.join
+            tokens[index].string = temp_tokens.join
+            (target_tokens_size-1).downto(1).each{|c|
+              tokens.delete_at(index + c)
+            }
+          end
+          index += 1
+        end
+      }
+    end
+    def next_token
+      @tokens[@token_pos]
+    end
+    ##
+    # SQL文字列をトークンの配列に変換し返します。
+    #
+    # sql_str:: 変換前のSQL文
+    def parse(sql_str)
+      coarse_tokens = CoarseTokenizer.new.tokenize(sql_str)
+      prepare_tokens(coarse_tokens)
+      tokens = []
+      count = 0
+      @token_pos = 0
+      loop {
+        token = next_token()
+        if $DEBUG
+          pp "=" * 64, count, token, token.class
+        end
+        if token._type == AnbtSql::TokenConstants::END_OF_SQL
+          break
+        else
+          ;
+        end
+        tokens.push token
+        count += 1
+        @token_pos += 1
+      }
+      concat_multiwords_keyword(tokens)
+      tokens
+    end
+  end
+end

data/lib/anbt-sql-formatter/rule.rb ADDED

@@ -0,0 +1,121 @@
+# -*- coding: utf-8 -*-
+require "pp"
+=begin
+AnbtSqlFormatter: SQL整形ツール. SQL文を決められたルールに従い整形します。
+フォーマットを実施するためには、入力されるSQLがSQL文として妥当であることが前提条件となります。
+このクラスが準拠するSQL整形のルールについては、下記URLを参照ください。
+http://homepage2.nifty.com/igat/igapyon/diary/2005/ig050613.html
+このクラスは SQLの変換規則を表します。
+@author WATANABE Yoshinori (a-san) : original version at 2005.07.04.
+@author IGA Tosiki : marge into blanc Framework at 2005.07.04
+@author sonota : porting to Ruby 2009-2010
+=end
+class AnbtSql
+  class Rule
+    attr_accessor :keyword, :indent_string, :function_names, :space_after_comma
+    attr_accessor :kw_multi_words
+    # nl: New Line
+    # x: the keyword
+    attr_accessor :kw_plus1_indent_x_nl
+    attr_accessor :kw_minus1_indent_nl_x_plus1_indent
+    attr_accessor :kw_nl_x
+    attr_accessor :kw_nl_x_plus1_indent
+    # キーワードの変換規則: 何もしない
+    KEYWORD_NONE = 0
+    # キーワードの変換規則: 大文字にする
+    KEYWORD_UPPER_CASE = 1
+    # キーワードの変換規則: 小文字にする
+    KEYWORD_LOWER_CASE = 2
+    def initialize
+      # キーワードの変換規則.
+      @keyword = KEYWORD_UPPER_CASE
+      # インデントの文字列. 設定は自由入力とする。
+      # 通常は " ", " ", "\t" のいずれか。
+      @indent_string = "    "
+      @space_after_comma = false
+      # __foo
+      # ____KW
+      @kw_plus1_indent_x_nl = %w(INSERT INTO CREATE DROP TRUNCATE TABLE CASE)
+      # ____foo
+      # __KW
+      # ____bar
+      @kw_minus1_indent_nl_x_plus1_indent = %w(FROM WHERE SET HAVING)
+      @kw_minus1_indent_nl_x_plus1_indent.concat ["ORDER BY", "GROUP BY"]
+      # __foo
+      # ____KW
+      @kw_nl_x_plus1_indent = %w(ON USING)
+      # __foo
+      # __KW
+      @kw_nl_x = %w(OR THEN ELSE)
+      # @kw_nl_x = %w(OR WHEN ELSE)
+      @kw_multi_words = ["ORDER BY", "GROUP BY"]
+      # 関数の名前。
+      # Java版は初期値 null
+      @function_names =
+        [
+         # getNumericFunctions
+         "ABS", "ACOS", "ASIN", "ATAN", "ATAN2", "BIT_COUNT", "CEILING",
+         "COS", "COT", "DEGREES", "EXP", "FLOOR", "LOG", "LOG10",
+         "MAX", "MIN", "MOD", "PI", "POW", "POWER", "RADIANS", "RAND",
+         "ROUND", "SIN", "SQRT", "TAN", "TRUNCATE",
+         # getStringFunctions
+         "ASCII", "BIN", "BIT_LENGTH", "CHAR", "CHARACTER_LENGTH",
+         "CHAR_LENGTH", "CONCAT", "CONCAT_WS", "CONV", "ELT",
+         "EXPORT_SET", "FIELD", "FIND_IN_SET", "HEX,INSERT", "INSTR",
+         "LCASE", "LEFT", "LENGTH", "LOAD_FILE", "LOCATE", "LOCATE",
+         "LOWER", "LPAD", "LTRIM", "MAKE_SET", "MATCH", "MID", "OCT",
+         "OCTET_LENGTH", "ORD", "POSITION", "QUOTE", "REPEAT",
+         "REPLACE", "REVERSE", "RIGHT", "RPAD", "RTRIM", "SOUNDEX",
+         "SPACE", "STRCMP", "SUBSTRING", "SUBSTRING", "SUBSTRING",
+         "SUBSTRING", "SUBSTRING_INDEX", "TRIM", "UCASE", "UPPER",
+         # getSystemFunctions
+         "DATABASE", "USER", "SYSTEM_USER", "SESSION_USER", "PASSWORD",
+         "ENCRYPT", "LAST_INSERT_ID", "VERSION",
+         # getTimeDateFunctions
+         "DAYOFWEEK", "WEEKDAY", "DAYOFMONTH", "DAYOFYEAR", "MONTH",
+         "DAYNAME", "MONTHNAME", "QUARTER", "WEEK", "YEAR", "HOUR",
+         "MINUTE", "SECOND", "PERIOD_ADD", "PERIOD_DIFF", "TO_DAYS",
+         "FROM_DAYS", "DATE_FORMAT", "TIME_FORMAT", "CURDATE",
+         "CURRENT_DATE", "CURTIME", "CURRENT_TIME", "NOW", "SYSDATE",
+         "CURRENT_TIMESTAMP", "UNIX_TIMESTAMP", "FROM_UNIXTIME",
+         "SEC_TO_TIME", "TIME_TO_SEC"
+        ]
+    end
+    def function?(name)
+      if (@function_names == nil)
+        return false
+      end
+      for i in 0...(@function_names.length)
+        if (@function_names[i].equalsIgnoreCase(name))
+          return true
+        end
+      end
+      return false
+    end
+  end
+end