RubyGems - langscan - Versions diffs - 1.2-x86-mswin32-60 - Mend

langscan 1.2-x86-mswin32-60

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (180) hide show

data/AUTHORS.txt +19 -0
data/History.txt +126 -0
data/Manifest.txt +167 -0
data/README.rdoc +91 -0
data/Rakefile +40 -0
data/ext/langscan/_make_c.rb +20 -0
data/ext/langscan/_make_h.rb +30 -0
data/ext/langscan/_template.c +134 -0
data/ext/langscan/_template.h +53 -0
data/ext/langscan/c/c/Makefile +188 -0
data/ext/langscan/c/c/c.c +134 -0
data/ext/langscan/c/c/c.h +66 -0
data/ext/langscan/c/c/ctok.c +4629 -0
data/ext/langscan/c/c/ctok.l +212 -0
data/ext/langscan/c/c/extconf.rb +3 -0
data/ext/langscan/c/c/modulename.txt +1 -0
data/ext/langscan/c/c/tokenlist.txt +13 -0
data/ext/langscan/csharp/csharp/Makefile +188 -0
data/ext/langscan/csharp/csharp/csharp.c +134 -0
data/ext/langscan/csharp/csharp/csharp.h +65 -0
data/ext/langscan/csharp/csharp/csharptok.c +2971 -0
data/ext/langscan/csharp/csharp/csharptok.l +200 -0
data/ext/langscan/csharp/csharp/extconf.rb +3 -0
data/ext/langscan/csharp/csharp/modulename.txt +1 -0
data/ext/langscan/csharp/csharp/tokenlist.txt +12 -0
data/ext/langscan/d/d/Makefile +188 -0
data/ext/langscan/d/d/d.c +134 -0
data/ext/langscan/d/d/d.h +64 -0
data/ext/langscan/d/d/dtok.c +5468 -0
data/ext/langscan/d/d/dtok.l +282 -0
data/ext/langscan/d/d/extconf.rb +3 -0
data/ext/langscan/d/d/modulename.txt +1 -0
data/ext/langscan/d/d/tokenlist.txt +11 -0
data/ext/langscan/elisp/elisp/Makefile +188 -0
data/ext/langscan/elisp/elisp/elisp.c +134 -0
data/ext/langscan/elisp/elisp/elisp.h +62 -0
data/ext/langscan/elisp/elisp/elisptok.c +2108 -0
data/ext/langscan/elisp/elisp/elisptok.l +151 -0
data/ext/langscan/elisp/elisp/extconf.rb +3 -0
data/ext/langscan/elisp/elisp/modulename.txt +1 -0
data/ext/langscan/elisp/elisp/tokenlist.txt +9 -0
data/ext/langscan/java/java/Makefile +188 -0
data/ext/langscan/java/java/extconf.rb +3 -0
data/ext/langscan/java/java/java.c +134 -0
data/ext/langscan/java/java/java.h +64 -0
data/ext/langscan/java/java/javatok.c +2097 -0
data/ext/langscan/java/java/javatok.l +155 -0
data/ext/langscan/java/java/modulename.txt +1 -0
data/ext/langscan/java/java/tokenlist.txt +11 -0
data/ext/langscan/javascript/javascript/Makefile +188 -0
data/ext/langscan/javascript/javascript/extconf.rb +3 -0
data/ext/langscan/javascript/javascript/javascript.c +134 -0
data/ext/langscan/javascript/javascript/javascript.h +63 -0
data/ext/langscan/javascript/javascript/javascripttok.c +2058 -0
data/ext/langscan/javascript/javascript/javascripttok.l +147 -0
data/ext/langscan/javascript/javascript/modulename.txt +1 -0
data/ext/langscan/javascript/javascript/tokenlist.txt +10 -0
data/ext/langscan/pairmatcher/pairmatcher/Makefile +188 -0
data/ext/langscan/pairmatcher/pairmatcher/extconf.rb +3 -0
data/ext/langscan/pairmatcher/pairmatcher/pairmatcher.c +890 -0
data/ext/langscan/php/php/Makefile +188 -0
data/ext/langscan/php/php/extconf.rb +3 -0
data/ext/langscan/php/php/modulename.txt +1 -0
data/ext/langscan/php/php/php.c +134 -0
data/ext/langscan/php/php/php.h +64 -0
data/ext/langscan/php/php/phptok.c +2413 -0
data/ext/langscan/php/php/phptok.l +212 -0
data/ext/langscan/php/php/tokenlist.txt +11 -0
data/ext/langscan/post-distclean.rb +21 -0
data/ext/langscan/pre-config.rb +57 -0
data/ext/langscan/python/python/Makefile +188 -0
data/ext/langscan/python/python/extconf.rb +3 -0
data/ext/langscan/python/python/modulename.txt +1 -0
data/ext/langscan/python/python/python.c +134 -0
data/ext/langscan/python/python/python.h +61 -0
data/ext/langscan/python/python/pythontok.c +2109 -0
data/ext/langscan/python/python/pythontok.l +155 -0
data/ext/langscan/python/python/tokenlist.txt +8 -0
data/ext/langscan/ruby/compat/ripper/Makefile +189 -0
data/ext/langscan/ruby/compat/ripper/depend +1 -0
data/ext/langscan/ruby/compat/ripper/extconf.rb +4 -0
data/ext/langscan/ruby/compat/ripper/include/eventids1.c +251 -0
data/ext/langscan/ruby/compat/ripper/include/eventids2.c +277 -0
data/ext/langscan/ruby/compat/ripper/include/lex.c +138 -0
data/ext/langscan/ruby/compat/ripper/ripper.c +14420 -0
data/ext/langscan/scheme/scheme/Makefile +188 -0
data/ext/langscan/scheme/scheme/extconf.rb +3 -0
data/ext/langscan/scheme/scheme/modulename.txt +1 -0
data/ext/langscan/scheme/scheme/scheme.c +134 -0
data/ext/langscan/scheme/scheme/scheme.h +60 -0
data/ext/langscan/scheme/scheme/schemetok.c +2454 -0
data/ext/langscan/scheme/scheme/schemetok.l +177 -0
data/ext/langscan/scheme/scheme/tokenlist.txt +7 -0
data/ext/langscan/sh/sh/Makefile +188 -0
data/ext/langscan/sh/sh/extconf.rb +3 -0
data/ext/langscan/sh/sh/modulename.txt +1 -0
data/ext/langscan/sh/sh/sh.c +134 -0
data/ext/langscan/sh/sh/sh.h +61 -0
data/ext/langscan/sh/sh/shtok.c +2477 -0
data/ext/langscan/sh/sh/shtok.l +325 -0
data/ext/langscan/sh/sh/tokenlist.txt +8 -0
data/lib/langscan.rb +124 -0
data/lib/langscan/_common.rb +50 -0
data/lib/langscan/_easyscanner.rb +78 -0
data/lib/langscan/_pairmatcher.rb +46 -0
data/lib/langscan/_type.rb +125 -0
data/lib/langscan/autoconf.rb +51 -0
data/lib/langscan/automake.rb +51 -0
data/lib/langscan/brainfuck.rb +48 -0
data/lib/langscan/c.rb +144 -0
data/lib/langscan/c/c.so +0 -0
data/lib/langscan/csharp.rb +101 -0
data/lib/langscan/csharp/csharp.so +0 -0
data/lib/langscan/css.rb +109 -0
data/lib/langscan/d.rb +201 -0
data/lib/langscan/d/d.so +0 -0
data/lib/langscan/eiffel.rb +167 -0
data/lib/langscan/elisp.rb +132 -0
data/lib/langscan/elisp/elisp.so +0 -0
data/lib/langscan/io.rb +84 -0
data/lib/langscan/java.rb +95 -0
data/lib/langscan/java/java.so +0 -0
data/lib/langscan/javascript.rb +97 -0
data/lib/langscan/javascript/javascript.so +0 -0
data/lib/langscan/lua.rb +116 -0
data/lib/langscan/ocaml.rb +298 -0
data/lib/langscan/ocaml/camlexer.ml +28 -0
data/lib/langscan/ocaml/lexer.mll +230 -0
data/lib/langscan/ocaml/types.ml +36 -0
data/lib/langscan/pairmatcher/pairmatcher.so +0 -0
data/lib/langscan/perl.rb +87 -0
data/lib/langscan/perl/tokenizer.pl +231 -0
data/lib/langscan/php.rb +80 -0
data/lib/langscan/php/php.so +0 -0
data/lib/langscan/python.rb +101 -0
data/lib/langscan/python/python.so +0 -0
data/lib/langscan/rpmspec.rb +71 -0
data/lib/langscan/ruby.rb +164 -0
data/lib/langscan/ruby/compat/README +5 -0
data/lib/langscan/ruby/compat/ripper.rb +4 -0
data/lib/langscan/ruby/compat/ripper.so +0 -0
data/lib/langscan/ruby/compat/ripper/core.rb +918 -0
data/lib/langscan/ruby/compat/ripper/filter.rb +70 -0
data/lib/langscan/ruby/compat/ripper/lexer.rb +179 -0
data/lib/langscan/ruby/compat/ripper/sexp.rb +100 -0
data/lib/langscan/scheme.rb +160 -0
data/lib/langscan/scheme/scheme.so +0 -0
data/lib/langscan/sh.rb +116 -0
data/lib/langscan/sh/sh.so +0 -0
data/lib/langscan/text.rb +37 -0
data/metaconfig +2 -0
data/script/console +10 -0
data/script/destroy +14 -0
data/script/generate +14 -0
data/script/makemanifest.rb +21 -0
data/setup.rb +1604 -0
data/tasks/extconf.rake +13 -0
data/tasks/extconf/langscan.rake +42 -0
data/test/langscan/brainfuck/test/test_scan.rb +55 -0
data/test/langscan/c/test/test_scan.rb +216 -0
data/test/langscan/c/test/test_token.rb +41 -0
data/test/langscan/csharp/test/test_scan.rb +157 -0
data/test/langscan/css/test/test_css.rb +79 -0
data/test/langscan/d/test/test_scan.rb +233 -0
data/test/langscan/d/test/test_token.rb +205 -0
data/test/langscan/eiffel/test/test_eiffel.rb +95 -0
data/test/langscan/elisp/test/test_elisp.rb +177 -0
data/test/langscan/io/test/test_io.rb +79 -0
data/test/langscan/java/test/test_java.rb +74 -0
data/test/langscan/javascript/test/test_javascript.rb +39 -0
data/test/langscan/lua/test/test_lua.rb +69 -0
data/test/langscan/ocaml/test/test_ocaml.rb +161 -0
data/test/langscan/php/test/test_scan.rb +138 -0
data/test/langscan/python/test/test_scan.rb +105 -0
data/test/langscan/rpmspec/test/test_rpmspec.rb +51 -0
data/test/langscan/ruby/test/test_scan.rb +71 -0
data/test/langscan/scheme/test/test_scan.rb +198 -0
data/test/test_helper.rb +7 -0
data/test/test_langscan.rb +123 -0
metadata +320 -0

data/lib/langscan/ocaml/camlexer.ml ADDED

@@ -0,0 +1,28 @@
+(*
+  camlexer - Lexical Analyzer for Gonzui ocamlsupport
+  Copyright (C) 2005 Soutaro Matsumoto <matsumoto@soutaro.com>
+      All rights reserved.
+      This is free software with ABSOLUTELY NO WARRANTY.
+  You can redistribute it and/or modify it under the terms of
+  the GNU General Public License version 2.
+*)
+(* $Id: camlexer.ml,v 1.1.1.1 2005/09/15 19:38:39 bashi Exp $ *)
+let main () =
+  try
+    let lexbuf = Lexing.from_channel stdin in
+      while true do
+	let ((lnum,bnum),tname,lexed_str) = (Lexer.token lexbuf) in
+	  begin
+	    Printf.printf "%d:%d:%s:%s\n" lnum bnum (Types.to_string tname) lexed_str;
+	    flush stdout;
+	  end
+      done
+  with
+      Lexer.EOF -> exit 0
+let _ = main ()

data/lib/langscan/ocaml/lexer.mll ADDED

@@ -0,0 +1,230 @@
+(*
+  camlexer - Lexical Analyzer for Gonzui ocamlsupport
+  Copyright (C) 2005 Soutaro Matsumoto <matsumoto@soutaro.com>
+      All rights reserved.
+      This is free software with ABSOLUTELY NO WARRANTY.
+  You can redistribute it and/or modify it under the terms of
+  the GNU General Public License version 2.
+*)
+(* $Id: lexer.mll,v 1.1.1.1 2005/09/15 19:38:39 bashi Exp $ *)
+{
+exception EOF
+open Types
+let lnum = ref 1
+let inc_lnum () =
+  begin
+    lnum := !lnum+1;
+  end
+let reset () =
+  lnum := 1
+let get_pos lexbuf =
+  let pos = Lexing.lexeme_start_p lexbuf in
+  let boff = pos.Lexing.pos_bol in
+  let cnum = pos.Lexing.pos_cnum in
+    !lnum,boff+cnum
+let str_lexbuf = ref (None: (Lexing.lexbuf) option)
+}
+let newline = ('\n' | '\r' | "\r\n")
+let blank = [' ' '\t']
+let letter = ['a'-'z' 'A'-'Z']
+let num = ['0'-'9']
+let ident = (letter | '_') (letter | num | '_' | '\'')*
+let int_lit =
+    (('-')? num (num | '_')*)
+  | (('-')? ("0x"|"0X") (num | ['A'-'F'] ['a'-'f']) (num | ['A'-'F'] ['a'-'f'] | '_')*)
+  | (('-')? ("0o"|"0O") (['0'-'7']) (['0'-'7'] | '_')*)
+  | (('-')? ("0b"|"0B") (['0'-'1']) (['0'-'1'] | '_')*)
+let float_lit =
+  ('-')? num (num | '_')* ('.' (num | '_')*)? (("e"|"E") ('+'|'-')? num (num | '_')*)?
+let regular_char = [^ '\'']
+let escape_sequence =
+    '\\' ['\\' '\"' '\'' 'n' 't' 'b' 'r']
+  | '\\' num num num
+  | "\\x" (num | ['A'-'F'] | ['a'-'f']) (num | ['A'-'F'] | ['a'-'f'])
+let char_lit =
+    '\'' regular_char '\''
+  | '\'' escape_sequence '\''
+let label = ['a'-'z'] (letter | num | '_' | '\'')*
+let operator_char =  ['!' '$' '%' '&' '*' '+' '-' '.' '/' ':' '<' '=' '>' '?' '@' '^' '|' '~']
+let infix_symbol = ['=' '<' '>' '@' '|' '&' '+' '-' '*' '/' '$' '%'] operator_char*
+let prefix_symbol = ['!' '?' '~'] operator_char*
+let keywords =
+  "and" | "as" | "assert" | "asr" | "begin" | "class"
+  | "constraint" | "do" | "done" | "downto" | "else" | "end"
+  | "exception" | "external" | "false" | "for" | "fun" | "function"
+  | "functor" | "if" | "in" | "include" | "inherit" | "initializer"
+  | "land" | "lazy" | "let" | "lor" | "lsl" | "lsr"
+  | "lxor" | "match" | "method" | "mod" | "module" | "mutable"
+  | "new" | "object" | "of" | "open" | "or" | "private"
+  | "rec" | "sig" | "struct" | "then" | "to" | "true"
+  | "try" | "type" | "val" | "virtual" | "when" | "while" | "with"
+let puncts =
+    "!=" | "#" | "&" | "&&" | "\'" | "(" | ")" | "*" | "+" | "," | "-"
+  | "-." | "->" | "." | ".." | ":" | "::" | ":=" | ":>" | ";" | ";;" | "<"
+  | "<-" | "=" | ">" | ">]" | ">}" | "?" | "??" | "[" | "[<" | "[>" | "[|"
+  | "]" | "_" | "`" | "{" | "{<" | "|" | "|]" | "}" | "~"
+let camlp4_keywords = "parser"
+let camlp4_puncts =
+    "<<" | "<:" | ">>" | "$" | "$$" | "$:"
+let ocamlyacc_keywords =
+    "%token" | "%start" | "%type" | "%left" | "%right" | "%nonassoc" | "%prec"
+let ocamlyacc_puncts =
+    "%{" | "%}" | "%%"
+let ocamlyacc_ident = "$" num+
+let linenum_directive = '#' ' ' num+
+                      | '#' ' ' num+ ' ' '\"' [^ '\"']* '\"'
+let built_in_constants = "false" | "true" | "()" | "[]"
+rule token = parse
+  | newline
+      {
+	begin
+	  inc_lnum();
+	  token lexbuf;
+	end
+      }
+  | blank +
+      { token lexbuf }
+  | linenum_directive {
+      (get_pos lexbuf, Ttext, Lexing.lexeme lexbuf);
+    }
+  | keywords | camlp4_keywords | ocamlyacc_keywords {
+      (get_pos lexbuf, Tkeyword, Lexing.lexeme lexbuf)
+    }
+  | built_in_constants {
+      (get_pos lexbuf, Tkeyword, Lexing.lexeme lexbuf)
+    }
+  | "/*" {
+      let pos = get_pos lexbuf in
+	(pos, Tcomment, ocamlyacc_comment 0 "/*" lexbuf);
+    }
+  | "(*" {
+      let pos = get_pos lexbuf in
+	(pos, Tcomment, comment 0 "(*" lexbuf)
+    }
+  | '\"' {
+      let pos = get_pos lexbuf in
+	(pos, Tstring, string "\"" lexbuf) }
+  | puncts | camlp4_puncts | ocamlyacc_puncts {
+      (get_pos lexbuf, Tpunct, Lexing.lexeme lexbuf)
+    }
+  | infix_symbol | prefix_symbol {
+      (get_pos lexbuf, Tident, Lexing.lexeme lexbuf)
+    }
+  | ('~'|'?') label ':' {
+      let s = Lexing.lexeme lexbuf in
+      let name = String.sub s 1 (String.length s - 2) in
+	(get_pos lexbuf, Tident, s)
+    }
+  | ident | ocamlyacc_ident {
+      (get_pos lexbuf, Tident, Lexing.lexeme lexbuf)
+    }
+  | char_lit {
+      (get_pos lexbuf, Tchar, Lexing.lexeme lexbuf)
+    }
+  | int_lit {
+      (get_pos lexbuf, Tint, Lexing.lexeme lexbuf)
+    }
+  | float_lit {
+      (get_pos lexbuf, Tfloat, Lexing.lexeme lexbuf)
+    }
+  | eof { raise EOF }
+  | _
+      { token lexbuf }
+and comment lv acc = parse
+  | newline {
+      begin
+	inc_lnum();
+	comment lv (acc ^ "\\o") lexbuf;
+      end
+    }
+  | "(*" {
+      comment (lv+1) (acc ^ Lexing.lexeme lexbuf) lexbuf
+    }
+  | "*)" {
+      if lv = 0
+      then
+	acc ^ "*)"
+      else
+	comment (lv-1) (acc ^ Lexing.lexeme lexbuf) lexbuf
+    }
+  | ([^ '\\'] as c1) "\"" {
+      let s = string "\"" lexbuf in
+	match !str_lexbuf with
+	    Some lexbuf -> comment lv (acc ^ Printf.sprintf "%c" c1 ^ s) lexbuf
+    }
+  | char_lit {
+      comment lv (acc ^ Lexing.lexeme lexbuf) lexbuf
+    }
+  | _ {
+      let s = Lexing.lexeme lexbuf in
+	comment lv (acc^s) lexbuf
+    }
+and string acc = parse
+  | newline {
+      begin
+	inc_lnum();
+	string (acc ^ "\\o") lexbuf;
+      end
+    }
+  | '\"' {
+      begin
+	str_lexbuf := Some lexbuf;
+	acc ^ "\"";
+      end
+      }
+  | escape_sequence {
+      string (acc ^ Lexing.lexeme lexbuf) lexbuf
+    }
+  | char_lit {
+      string (acc ^ Lexing.lexeme lexbuf) lexbuf
+    }
+  | _ {
+      let s = Lexing.lexeme lexbuf in
+	string (acc^s) lexbuf
+    }
+and ocamlyacc_comment lv acc = parse
+  | newline {
+      begin
+	inc_lnum();
+	ocamlyacc_comment lv (acc ^ "\\o") lexbuf;
+      end
+    }
+  | "/*" {
+      ocamlyacc_comment (lv+1) (acc ^ Lexing.lexeme lexbuf) lexbuf
+    }
+  | "*/" {
+      if lv = 0
+      then
+	acc ^ "*/"
+      else
+	ocamlyacc_comment (lv-1) (acc ^ Lexing.lexeme lexbuf) lexbuf
+    }
+  | "\"" {
+      let s = string "\"" lexbuf in
+	match !str_lexbuf with
+	    Some lexbuf -> ocamlyacc_comment lv (acc ^ s) lexbuf
+    }
+  | char_lit {
+      ocamlyacc_comment lv (acc ^ Lexing.lexeme lexbuf) lexbuf
+    }
+  | _ {
+      let s = Lexing.lexeme lexbuf in
+	ocamlyacc_comment lv (acc^s) lexbuf
+    }

data/lib/langscan/ocaml/types.ml ADDED

@@ -0,0 +1,36 @@
+(*
+  camlexer - Lexical Analyzer for Gonzui ocamlsupport
+  Copyright (C) 2005 Soutaro Matsumoto <matsumoto@soutaro.com>
+      All rights reserved.
+      This is free software with ABSOLUTELY NO WARRANTY.
+  You can redistribute it and/or modify it under the terms of
+  the GNU General Public License version 2.
+*)
+(* $Id: types.ml,v 1.1.1.1 2005/09/15 19:38:38 bashi Exp $ *)
+type gonzui_type = Tident
+		   | Tpunct
+		   | Tfuncdef
+		   | Ttext
+		   | Tstring
+		   | Tcomment
+		   | Tkeyword
+		   | Tchar
+		   | Tint
+		   | Tfloat
+let to_string = function
+    Tident -> "ident"
+  | Tpunct -> "punct"
+  | Tfuncdef -> "funcdef"
+  | Ttext -> "text"
+  | Tstring -> "string"
+  | Tcomment -> "comment"
+  | Tkeyword -> "keyword"
+  | Tchar -> "character"
+  | Tfloat -> "float"
+  | Tint -> "integer"

data/lib/langscan/pairmatcher/pairmatcher.so ADDED

Binary file

data/lib/langscan/perl.rb ADDED

@@ -0,0 +1,87 @@
+#
+# perl.rb - a Perl module of LangScan
+#
+# Copyright (C) 2005 Tatsuhiko Miyagawa <miyagawa@bulknews.net>
+#     All rights reserved.
+#     This is free software with ABSOLUTELY NO WARRANTY.
+#
+# You can redistribute it and/or modify it under the terms of
+# the GNU General Public License version 2.
+#
+dn = "/dev/null"
+dn = "nul" if (/mswin|mingw|bccwin/ =~ RUBY_PLATFORM)
+unless system("perl -MPPI -e 1 2>#{dn}")
+  raise LoadError.new("PPI module is required")
+end
+require 'langscan/_common'
+module LangScan
+  module Perl
+    module_function
+    def name
+      "Perl"
+    end
+    def abbrev
+      "perl"
+    end
+    def extnames
+      [".pl", ".PL", ".pm", ".t" ] # XXX remove ".t"
+    end
+    PERLTOKENIZER_PATH = $LOAD_PATH.map {|path|
+      File.join(path, "langscan/perl/tokenizer.pl")
+    }.find {|path| File.file?(path) }
+    raise "tokenizer.pl not found" if PERLTOKENIZER_PATH.nil?
+    def shell_escape(file_name)
+      '"' + file_name.gsub(/([$"\\`])/, "\\\\\\1") + '"'
+    end
+    def open_tokenizer
+      command_line = sprintf("perl %s 2>/dev/null",
+                             shell_escape(PERLTOKENIZER_PATH))
+      @io = IO.popen(command_line, "r+")
+    end
+    # LangScan::Perl.scan iterates over Perl program.
+    # It yields for each Fragment.
+    def scan(input)
+      open_tokenizer if @io.nil? or @io.closed? # in case of Perl error
+      @io.puts(input.length)
+      @io.write(input)
+      inputlen = input.length
+      buflen   = 0
+      begin
+        while (buflen < inputlen)
+          type    = @io.readline.chomp.intern
+          lineno  = @io.readline.chomp.to_i
+          byteno  = @io.readline.chomp.to_i
+          bodylen = @io.readline.chomp.to_i
+          text    = @io.read(bodylen)
+          if type.nil? or text.nil? or lineno.nil? or byteno.nil?
+            raise ScanFailed.new("Unexpected output from tokenizer.pl")
+          end
+          yield Fragment.new(type, text, lineno, byteno)
+          @io.read(1) # newline
+          buflen += bodylen
+        end
+      rescue EOFError
+        @io.close
+        raise  ScanFailed.new("tokenizer.pl failed to parse")
+      end
+    end
+    LangScan.register(self)
+  end
+end

data/lib/langscan/perl/tokenizer.pl ADDED

@@ -0,0 +1,231 @@
+# tokenizer.pl: tokenize Perl scripts as gonzui langscan format
+#
+# Author:  Tatsuhiko Miyagawa <miyagawa@bulknews.net>
+# License: Same as Perl (Artistic/GPL2)
+#
+use strict;
+use PPI::Tokenizer;
+$PPI::Tokenizer::ALLOW_NONASCII = 1;
+our $Debug = 0;
+$| = 1;
+# TODO:
+# 'string' is abused
+# regexp is string
+# PPI fails to tokenize source code with UTF-8 binary
+our(%TokenMap, %ReservedWords, %BuiltinFunctions);
+if ($ARGV[0] && $ARGV[0] eq '-d') {
+    # debug mode
+    open my $fh, $ARGV[1] or die "$ARGV[1]: $!";
+    my $code = join '', <$fh>;
+    Tokenizer->new->tokenize(\$code);
+} else {
+    # persistent mode
+    my $tokenizer = Tokenizer->new;
+    while (1) {
+	chomp(my $length = <STDIN>);
+	last unless defined $length;
+	read(STDIN, my($code), $length);
+	$tokenizer->tokenize(\$code);
+	$tokenizer->reset();
+    }
+}
+package Tokenizer;
+sub new {
+    my $class = shift;
+    my $self = bless { }, $class;
+    $self->reset();
+    $self;
+}
+sub reset {
+    my $self = shift;
+    $self->{lineno}     = 0;
+    $self->{byteno}     = 0;
+    $self->{heredoc}    = undef;
+    $self->{in_sub}     = undef;
+    $self->{in_package} = undef;
+    $self->{in_arrow}   = undef;
+    $self->{in_usereq}  = undef;
+}
+sub tokenize {
+    my($self, $coderef) = @_;
+    my $tokenizer = PPI::Tokenizer->new($coderef) or die "Can't tokenize code: $$coderef";
+    while (my $token = $tokenizer->get_token) {
+	$self->dump_element($token);
+    }
+    my $code_length = length $$coderef;
+    $self->{byteno} == $code_length or die "Tokenize error: $self->{byteno}:$code_length";
+}
+sub dump_element {
+    my($self, $element) = @_;
+    if ($element->isa('PPI::Token::HereDoc')) {
+	$self->_dump("punct", $element->content);
+	$self->{heredoc} ||= [];
+	push @{$self->{heredoc}}, {
+	    body => $element->{_heredoc},
+	    eof  => $element->{_terminator_line},
+	};
+	return;
+    } elsif ($self->{heredoc} && $element->isa('PPI::Token::Whitespace') && $element->content eq "\n") {
+	$self->_dump(token_name($element), $element->content);
+	for my $heredoc (@{$self->{heredoc}}) {
+	    $self->_dump(string => join "", @{$heredoc->{body}});
+	    $self->_dump(punct  => $heredoc->{eof});
+	}
+	$self->{heredoc} = undef;
+	return;
+    } elsif ($element->isa('PPI::Token::Word') && $element->content eq 'sub') {
+	$self->{in_sub} = 1;
+    } elsif ($element->isa('PPI::Token::Word') && $element->content eq 'package') {
+	$self->{in_package} = 1;
+    } elsif ($element->isa('PPI::Token::Word') && ($element->content eq 'use' || $element->content eq 'require')) {
+	$self->{in_usereq} = 1;
+    } elsif ($element->isa('PPI::Token::Operator') && $element->content eq '->') {
+	$self->{in_arrow} = 1;
+    } elsif ($self->{in_sub} && !$element->isa('PPI::Token::Whitespace')) {
+	$self->{in_sub} = undef;
+	if ($element->isa('PPI::Token::Word')) {
+	    warn "sub $element->{content}\n" if $Debug;
+	    $self->_dump(fundef => $element->content);
+	    return;
+	}
+    } elsif ($self->{in_package} && !$element->isa('PPI::Token::Whitespace')) {
+	$self->{in_package} = undef;
+	if ($element->isa('PPI::Token::Word')) {
+	    warn "package $element->{content}\n" if $Debug;
+	    $self->_dump(classdef => $element->content);
+	    return;
+	}
+    } elsif ($self->{in_arrow} && !$element->isa('PPI::Token::Whitespace')) {
+	$self->{in_arrow} = undef;
+	if ($element->isa('PPI::Token::Word')) {
+	    warn "->$element->{content}\n" if $Debug;
+	    $self->_dump(funcall => $element->content);
+	    return;
+	}
+    } elsif ($self->{in_usereq} && !$element->isa('PPI::Token::Whitespace')) {
+	$self->{in_usereq} = undef;
+	if ($element->isa('PPI::Token::Word')) {
+	    warn "use $element->{content}\n" if $Debug;
+	    $self->_dump(classref => $element->content);
+	    return;
+	}
+    }
+    $self->_dump(token_name($element), $element->content);
+}
+sub _dump {
+    my($self, $type, $text) = @_;
+    my $bodysize = length $text;
+    print <<DUMP;
+$type
+$self->{lineno}
+$self->{byteno}
+$bodysize
+$text
+DUMP
+    ;
+    $self->{byteno} += $bodysize;
+    $self->{lineno} += $text =~ tr/\n//d;
+}
+sub token_name {
+    my $token = shift;
+    if ($token->isa('PPI::Token::Word')) {
+	return $ReservedWords{$token->content} ? "keyword" :
+	    $BuiltinFunctions{$token->content} ? "funcall" : "word";
+    } elsif (ref($token) eq 'PPI::Token::Number') {
+	return $token->{_subtype} eq 'base256' ? "floating" : "integer";
+    }
+    $TokenMap{ref($token)} || "word";
+}
+BEGIN {
+    %TokenMap = qw(
+PPI::Token::ArrayIndex            ident
+PPI::Token::Attribute             fundef
+PPI::Token::Cast                  punct
+PPI::Token::Comment               text
+PPI::Token::DashedWord            punct
+PPI::Token::Data                  text
+PPI::Token::End                   punct
+PPI::Token::HereDoc               *
+PPI::Token::Label                 word
+PPI::Token::Magic                 punct
+PPI::Token::Number                *
+PPI::Token::Operator              punct
+PPI::Token::Pod                   text
+PPI::Token::Prototype             punct
+PPI::Token::Quote::Double         string
+PPI::Token::Quote::Interpolate    string
+PPI::Token::Quote::Literal        string
+PPI::Token::Quote::Single         string
+PPI::Token::QuoteLike::Backtick   string
+PPI::Token::QuoteLike::Command    string
+PPI::Token::QuoteLike::Readline   string
+PPI::Token::QuoteLike::Regexp     string
+PPI::Token::QuoteLike::Words      string
+PPI::Token::Regexp::Match         word
+PPI::Token::Regexp::Substitute    word
+PPI::Token::Regexp::Transliterate word
+PPI::Token::Separator             punct
+PPI::Token::Structure             punct
+PPI::Token::Symbol                ident
+PPI::Token::Unknown               punct
+PPI::Token::Whitespace            punct
+PPI::Token::Word                  *
+);
+    # borrowed from Apache::PrettyPerl, with slight fixes
+    %ReservedWords = map { $_ => 1 } qw(
+	while until for foreach unless if elsif else do
+	package use no require import and or eq ne cmp
+        my our local next last redo goto return sub
+    );
+    %BuiltinFunctions = map { $_ => 1 } qw(
+	abs accept alarm atan2 bind binmode bless
+	caller chdir chmod chomp chop chown chr
+	chroot close closedir connect continue cos
+	crypt dbmclose dbmopen defined delete die
+	dump each endgrent endhostent endnetent
+	endprotoent endpwent endservent eof eval
+	exec exists exit exp fcntl fileno flock
+	fork format formline getc getgrent getgrgid
+	getgrnam gethostbyaddr gethostbyname gethostent
+	getlogin getnetbyaddr getnetbyname getnetent
+	getpeername getpgrp getppid getpriority
+	getprotobyname getprotobynumber getprotoent
+	getpwent getpwnam getpwuid getservbyname
+	getservbyport getservent getsockname
+	getsockopt glob gmtime goto grep hex index
+	int ioctl join keys kill last lc lcfirst
+	length link listen local localtime log
+	lstat map mkdir msgctl msgget msgrcv
+	msgsnd my next oct open opendir ord our pack
+	pipe pop pos print printf prototype push
+	quotemeta rand read readdir readline
+	readlink readpipe recv redo ref rename
+	reset return reverse rewinddir rindex
+	rmdir scalar seek seekdir select semctl
+	semget semop send setgrent sethostent
+	setnetent setpgrp setpriority setprotoent
+	setpwent setservent setsockopt shift shmctl
+	shmget shmread shmwrite shutdown sin sleep
+	socket socketpair sort splice split sprintf
+	sqrt srand stat study sub substr symlink
+	syscall sysopen sysread sysread sysseek
+	system syswrite tell telldir tie tied
+	time times truncate uc ucfirst umask undef
+	unlink unpack unshift untie utime values
+	vec wait waitpid wantarray warn write
+    );
+}