RubyGems - nokogiri - Versions diffs - 1.5.0.beta.3-java → 1.5.0.beta.4-java - Mend

nokogiri 1.5.0.beta.3-java → 1.5.0.beta.4-java

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (88) hide show

data/CHANGELOG.ja.rdoc +32 -16
data/CHANGELOG.rdoc +18 -0
data/Manifest.txt +1 -2
data/README.rdoc +27 -3
data/Rakefile +39 -83
data/ext/java/nokogiri/EncodingHandler.java +1 -1
data/ext/java/nokogiri/HtmlDocument.java +11 -14
data/ext/java/nokogiri/HtmlElementDescription.java +1 -1
data/ext/java/nokogiri/HtmlEntityLookup.java +1 -1
data/ext/java/nokogiri/HtmlSaxParserContext.java +13 -10
data/ext/java/nokogiri/NokogiriService.java +103 -34
data/ext/java/nokogiri/XmlAttr.java +14 -6
data/ext/java/nokogiri/XmlAttributeDecl.java +1 -1
data/ext/java/nokogiri/XmlCdata.java +3 -1
data/ext/java/nokogiri/XmlComment.java +3 -1
data/ext/java/nokogiri/XmlDocument.java +29 -8
data/ext/java/nokogiri/XmlDocumentFragment.java +14 -13
data/ext/java/nokogiri/XmlDtd.java +5 -2
data/ext/java/nokogiri/XmlElement.java +2 -1
data/ext/java/nokogiri/XmlElementContent.java +1 -1
data/ext/java/nokogiri/XmlElementDecl.java +2 -1
data/ext/java/nokogiri/XmlEntityDecl.java +2 -1
data/ext/java/nokogiri/XmlEntityReference.java +1 -1
data/ext/java/nokogiri/XmlNamespace.java +3 -2
data/ext/java/nokogiri/XmlNode.java +17 -10
data/ext/java/nokogiri/XmlNodeSet.java +40 -13
data/ext/java/nokogiri/XmlProcessingInstruction.java +1 -1
data/ext/java/nokogiri/XmlReader.java +3 -1
data/ext/java/nokogiri/XmlRelaxng.java +37 -92
data/ext/java/nokogiri/XmlSaxParserContext.java +25 -11
data/ext/java/nokogiri/XmlSaxPushParser.java +6 -4
data/ext/java/nokogiri/XmlSchema.java +190 -46
data/ext/java/nokogiri/XmlSyntaxError.java +42 -37
data/ext/java/nokogiri/XmlText.java +3 -2
data/ext/java/nokogiri/XmlXpathContext.java +8 -4
data/ext/java/nokogiri/XsltStylesheet.java +12 -10
data/ext/java/nokogiri/internals/HtmlDomParserContext.java +8 -7
data/ext/java/nokogiri/internals/NokogiriDocumentCache.java +1 -1
data/ext/java/nokogiri/internals/NokogiriErrorHandler.java +11 -5
data/ext/java/nokogiri/internals/NokogiriHandler.java +36 -9
data/ext/java/nokogiri/internals/NokogiriHelpers.java +21 -22
data/ext/java/nokogiri/internals/NokogiriNamespaceCache.java +5 -4
data/ext/java/nokogiri/internals/NokogiriNamespaceContext.java +1 -1
data/ext/java/nokogiri/internals/NokogiriNonStrictErrorHandler.java +2 -1
data/ext/java/nokogiri/internals/NokogiriNonStrictErrorHandler4NekoHtml.java +1 -1
data/ext/java/nokogiri/internals/NokogiriStrictErrorHandler.java +2 -1
data/ext/java/nokogiri/internals/NokogiriXPathFunction.java +15 -9
data/ext/java/nokogiri/internals/NokogiriXPathFunctionResolver.java +1 -1
data/ext/java/nokogiri/internals/ParserContext.java +18 -7
data/ext/java/nokogiri/internals/PushInputStream.java +1 -1
data/ext/java/nokogiri/internals/ReaderNode.java +7 -6
data/ext/java/nokogiri/internals/SaveContext.java +16 -10
data/ext/java/nokogiri/internals/SchemaErrorHandler.java +13 -5
data/ext/java/nokogiri/internals/XmlDeclHandler.java +1 -1
data/ext/java/nokogiri/internals/XmlDomParser.java +1 -1
data/ext/java/nokogiri/internals/XmlDomParserContext.java +13 -8
data/ext/java/nokogiri/internals/XmlSaxParser.java +1 -1
data/ext/java/nokogiri/internals/XsltExtensionFunction.java +1 -1
data/ext/nokogiri/extconf.rb +3 -3
data/ext/nokogiri/xml_document.c +9 -0
data/ext/nokogiri/xml_sax_parser.c +4 -2
data/lib/nokogiri.rb +9 -6
data/lib/nokogiri/css.rb +1 -3
data/lib/nokogiri/css/parser.rb +665 -70
data/lib/nokogiri/css/parser.y +3 -1
data/lib/nokogiri/css/parser_extras.rb +91 -0
data/lib/nokogiri/css/tokenizer.rb +148 -3
data/lib/nokogiri/css/tokenizer.rex +1 -1
data/lib/nokogiri/html/document.rb +138 -11
data/lib/nokogiri/html/sax/parser.rb +6 -2
data/lib/nokogiri/nokogiri.jar +0 -0
data/lib/nokogiri/version.rb +1 -1
data/lib/nokogiri/xml/node.rb +2 -2
data/lib/nokogiri/xml/node/save_options.rb +3 -0
data/lib/nokogiri/xml/node_set.rb +1 -1
data/test/css/test_tokenizer.rb +8 -0
data/test/helper.rb +2 -0
data/test/html/sax/test_parser.rb +43 -0
data/test/html/test_document.rb +59 -0
data/test/html/test_document_encoding.rb +48 -0
data/test/html/test_element_description.rb +1 -1
data/test/xml/sax/test_parser.rb +16 -0
data/test/xml/test_document.rb +3 -1
data/test/xml/test_node.rb +4 -1
data/test/xml/test_node_set.rb +10 -0
metadata +73 -82
data/lib/nokogiri/css/generated_parser.rb +0 -676
data/lib/nokogiri/css/generated_tokenizer.rb +0 -145

data/lib/nokogiri/css/parser.y CHANGED

@@ -1,4 +1,4 @@
-class Nokogiri::CSS::GeneratedParser
+class Nokogiri::CSS::Parser
 token FUNCTION INCLUDES DASHMATCH LBRACE HASH PLUS GREATER S STRING IDENT
 token COMMA NUMBER PREFIXMATCH SUFFIXMATCH SUBSTRINGMATCH TILDE NOT_EQUAL
@@ -233,3 +233,5 @@ end
 ---- header
+require 'nokogiri/css/parser_extras'

data/lib/nokogiri/css/parser_extras.rb ADDED

@@ -0,0 +1,91 @@
+require 'thread'
+module Nokogiri
+  module CSS
+    class Parser < Racc::Parser
+      @cache_on = true
+      @cache    = {}
+      @mutex    = Mutex.new
+      class << self
+        # Turn on CSS parse caching
+        attr_accessor :cache_on
+        alias :cache_on? :cache_on
+        alias :set_cache :cache_on=
+        # Get the css selector in +string+ from the cache
+        def [] string
+          return unless @cache_on
+          @mutex.synchronize { @cache[string] }
+        end
+        # Set the css selector in +string+ in the cache to +value+
+        def []= string, value
+          return value unless @cache_on
+          @mutex.synchronize { @cache[string] = value }
+        end
+        # Clear the cache
+        def clear_cache
+          @mutex.synchronize { @cache = {} }
+        end
+        # Execute +block+ without cache
+        def without_cache &block
+          tmp = @cache_on
+          @cache_on = false
+          block.call
+          @cache_on = tmp
+        end
+        ###
+        # Parse this CSS selector in +selector+.  Returns an AST.
+        def parse selector
+          @warned ||= false
+          unless @warned
+            $stderr.puts('Nokogiri::CSS::Parser.parse is deprecated, call Nokogiri::CSS.parse(), this will be removed August 1st or version 1.4.0 (whichever is first)')
+            @warned = true
+          end
+          new.parse selector
+        end
+      end
+      # Create a new CSS parser with respect to +namespaces+
+      def initialize namespaces = {}
+        @tokenizer  = Tokenizer.new
+        @namespaces = namespaces
+        super()
+      end
+      def parse string
+        @tokenizer.scan_setup string
+        do_parse
+      end
+      def next_token
+        @tokenizer.next_token
+      end
+      # Get the xpath for +string+ using +options+
+      def xpath_for string, options={}
+        key = "#{string}#{options[:ns]}#{options[:prefix]}"
+        v = self.class[key]
+        return v if v
+        args = [
+          options[:prefix] || '//',
+          options[:visitor] || XPathVisitor.new
+        ]
+        self.class[key] = parse(string).map { |ast|
+          ast.to_xpath(*args)
+        }
+      end
+      # On CSS parser error, raise an exception
+      def on_error error_token_id, error_value, value_stack
+        after = value_stack.compact.last
+        raise SyntaxError.new("unexpected '#{error_value}' after '#{after}'")
+      end
+    end
+  end
+end

data/lib/nokogiri/css/tokenizer.rb CHANGED

@@ -1,7 +1,152 @@
+#--
+# DO NOT MODIFY!!!!
+# This file is automatically generated by rex 1.0.5
+# from lexical definition file "lib/nokogiri/css/tokenizer.rex".
+#++
 module Nokogiri
-  module CSS
-    class Tokenizer < GeneratedTokenizer
-      alias :scan :scan_setup
+module CSS
+class Tokenizer
+  require 'strscan'
+  class ScanError < StandardError ; end
+  attr_reader   :lineno
+  attr_reader   :filename
+  attr_accessor :state
+  def scan_setup(str)
+    @ss = StringScanner.new(str)
+    @lineno =  1
+    @state  = nil
+  end
+  def action
+    yield
+  end
+  def scan_str(str)
+    scan_setup(str)
+    do_parse
+  end
+  alias :scan :scan_str
+  def load_file( filename )
+    @filename = filename
+    open(filename, "r") do |f|
+      scan_setup(f.read)
     end
   end
+  def scan_file( filename )
+    load_file(filename)
+    do_parse
+  end
+  def next_token
+    return if @ss.eos?
+    # skips empty actions
+    until token = _next_token or @ss.eos?; end
+    token
+  end
+  def _next_token
+    text = @ss.peek(1)
+    @lineno  +=  1  if text == "\n"
+    token = case @state
+    when nil
+      case
+      when (text = @ss.scan(/has\([\s]*/))
+         action { [:HAS, text] }
+      when (text = @ss.scan(/[-@]?([_A-Za-z]|[^\0-\177]|\\[0-9A-Fa-f]{1,6}(\r\n|[\s])?|\\[^\n\r\f0-9A-Fa-f])([_A-Za-z0-9-]|[^\0-\177]|\\[0-9A-Fa-f]{1,6}(\r\n|[\s])?|\\[^\n\r\f0-9A-Fa-f])*\([\s]*/))
+         action { [:FUNCTION, text] }
+      when (text = @ss.scan(/[-@]?([_A-Za-z]|[^\0-\177]|\\[0-9A-Fa-f]{1,6}(\r\n|[\s])?|\\[^\n\r\f0-9A-Fa-f])([_A-Za-z0-9-]|[^\0-\177]|\\[0-9A-Fa-f]{1,6}(\r\n|[\s])?|\\[^\n\r\f0-9A-Fa-f])*/))
+         action { [:IDENT, text] }
+      when (text = @ss.scan(/\#([_A-Za-z0-9-]|[^\0-\177]|\\[0-9A-Fa-f]{1,6}(\r\n|[\s])?|\\[^\n\r\f0-9A-Fa-f])+/))
+         action { [:HASH, text] }
+      when (text = @ss.scan(/[\s]*~=[\s]*/))
+         action { [:INCLUDES, text] }
+      when (text = @ss.scan(/[\s]*\|=[\s]*/))
+         action { [:DASHMATCH, text] }
+      when (text = @ss.scan(/[\s]*\^=[\s]*/))
+         action { [:PREFIXMATCH, text] }
+      when (text = @ss.scan(/[\s]*\$=[\s]*/))
+         action { [:SUFFIXMATCH, text] }
+      when (text = @ss.scan(/[\s]*\*=[\s]*/))
+         action { [:SUBSTRINGMATCH, text] }
+      when (text = @ss.scan(/[\s]*!=[\s]*/))
+         action { [:NOT_EQUAL, text] }
+      when (text = @ss.scan(/[\s]*=[\s]*/))
+         action { [:EQUAL, text] }
+      when (text = @ss.scan(/[\s]*\)/))
+         action { [:RPAREN, text] }
+      when (text = @ss.scan(/[\s]*\[[\s]*/))
+         action { [:LSQUARE, text] }
+      when (text = @ss.scan(/[\s]*\]/))
+         action { [:RSQUARE, text] }
+      when (text = @ss.scan(/[\s]*\+[\s]*/))
+         action { [:PLUS, text] }
+      when (text = @ss.scan(/[\s]*>[\s]*/))
+         action { [:GREATER, text] }
+      when (text = @ss.scan(/[\s]*,[\s]*/))
+         action { [:COMMA, text] }
+      when (text = @ss.scan(/[\s]*~[\s]*/))
+         action { [:TILDE, text] }
+      when (text = @ss.scan(/\:not\([\s]*/))
+         action { [:NOT, text] }
+      when (text = @ss.scan(/-?([0-9]+|[0-9]*\.[0-9]+)/))
+         action { [:NUMBER, text] }
+      when (text = @ss.scan(/[\s]*\/\/[\s]*/))
+         action { [:DOUBLESLASH, text] }
+      when (text = @ss.scan(/[\s]*\/[\s]*/))
+         action { [:SLASH, text] }
+      when (text = @ss.scan(/U\+[0-9a-f?]{1,6}(-[0-9a-f]{1,6})?/))
+         action {[:UNICODE_RANGE, text] }
+      when (text = @ss.scan(/[\s]+/))
+         action { [:S, text] }
+      when (text = @ss.scan(/"([^\n\r\f"]|\n|\r\n|\r|\f|[^\0-\177]|\\[0-9A-Fa-f]{1,6}(\r\n|[\s])?|\\[^\n\r\f0-9A-Fa-f])*"|'([^\n\r\f']|\n|\r\n|\r|\f|[^\0-\177]|\\[0-9A-Fa-f]{1,6}(\r\n|[\s])?|\\[^\n\r\f0-9A-Fa-f])*'/))
+         action { [:STRING, text] }
+      when (text = @ss.scan(/./))
+         action { [text, text] }
+      else
+        text = @ss.string[@ss.pos .. -1]
+        raise  ScanError, "can not match: '" + text + "'"
+      end  # if
+    else
+      raise  ScanError, "undefined state: '" + state.to_s + "'"
+    end  # case state
+    token
+  end  # def _next_token
+end # class
+end
 end

data/lib/nokogiri/css/tokenizer.rex CHANGED

@@ -1,6 +1,6 @@
 module Nokogiri
 module CSS
-class GeneratedTokenizer < GeneratedParser
+class Tokenizer
 macro
   nl        \n|\r\n|\r|\f

data/lib/nokogiri/html/document.rb CHANGED

@@ -3,25 +3,44 @@ module Nokogiri
     class Document < Nokogiri::XML::Document
       ###
       # Get the meta tag encoding for this document.  If there is no meta tag,
-      # then nil is returned
+      # then nil is returned.
       def meta_encoding
-        return nil unless meta = css('meta').find { |node|
-          node['http-equiv'] =~ /Content-Type/i
-        }
-        /charset\s*=\s*([\w-]+)/i.match(meta['content'])[1]
+        meta = meta_content_type and
+          /charset\s*=\s*([\w-]+)/i.match(meta['content'])[1]
       end
       ###
       # Set the meta tag encoding for this document.  If there is no meta
-      # content tag, nil is returned and the encoding is not set.
+      # content tag, the encoding is not set.
       def meta_encoding= encoding
-        return nil unless meta = css('meta').find { |node|
-          node['http-equiv'] =~ /Content-Type/i
+        meta = meta_content_type and
+          meta['content'] = "text/html; charset=%s" % encoding
+      end
+      def meta_content_type
+        css('meta[@http-equiv]').find { |node|
+          node['http-equiv'] =~ /\AContent-Type\z/i
         }
+      end
+      private :meta_content_type
-        meta['content'] = "text/html; charset=%s" % encoding
-        encoding
+      ###
+      # Get the title string of this document.  Return nil if there is
+      # no title tag.
+      def title
+        title = at('title') and title.inner_text
+      end
+      ###
+      # Set the title string of this document.  If there is no head
+      # element, the title is not set.
+      def title=(text)
+        unless title = at('title')
+          head = at('head') or return nil
+          title = Nokogiri::XML::Node.new('title', self)
+          head << title
+        end
+        title.children = XML::Text.new(text, self)
       end
       ####
@@ -75,16 +94,124 @@ module Nokogiri
           if string_or_io.respond_to?(:read)
             url ||= string_or_io.respond_to?(:path) ? string_or_io.path : nil
+            if !encoding
+              # Perform further encoding detection that libxml2 does
+              # not do.
+              string_or_io = EncodingReader.new(string_or_io)
+              begin
+                return read_io(string_or_io, url, encoding, options.to_i)
+              rescue EncodingFoundException => e
+                # A retry is required because libxml2 has a problem in
+                # that it cannot switch encoding well in the middle of
+                # parsing, especially if it has already seen a
+                # non-ASCII character when it finds an encoding hint.
+                encoding = e.encoding
+              end
+            end
             return read_io(string_or_io, url, encoding, options.to_i)
           end
           # read_memory pukes on empty docs
           return new if string_or_io.nil? or string_or_io.empty?
+          if !encoding
+            encoding = EncodingReader.detect_encoding(string_or_io)
+          end
           read_memory(string_or_io, url, encoding, options.to_i)
         end
       end
+      class EncodingFoundException < Exception # :nodoc:
+        attr_reader :encoding
+        def initialize(encoding)
+          @encoding = encoding
+          super("encoding found: %s" % encoding)
+        end
+      end
+      class EncodingReader # :nodoc:
+        class SAXHandler < Nokogiri::XML::SAX::Document # :nodoc:
+          attr_reader :encoding
+          def found(encoding)
+            @encoding = encoding
+            throw :found
+          end
+          def not_found(encoding)
+            found nil
+          end
+          def start_element(name, attrs = [])
+            case name
+            when /\A(?:div|h1|img|p|br)\z/
+              not_found
+            when 'meta'
+              attr = Hash[attrs]
+              http_equiv = attr['http-equiv'] and
+                http_equiv.match(/\AContent-Type\z/i) and
+                content = attr['content'] and
+                m = content.match(/;\s*charset\s*=\s*([\w-]+)/) and
+                found m[1]
+            end
+          end
+        end
+        def self.detect_encoding(chunk)
+          m = chunk.match(/\A(<\?xml[ \t\r\n]+[^>]*>)/) and
+            return Nokogiri.XML(m[1]).encoding
+          if Nokogiri.jruby?
+            m = chunk.match(/(<meta\s)(.*)(charset\s*=\s*([\w-]+))(.*)/i) and
+              return m[4]
+          end
+          handler = SAXHandler.new
+          parser = Nokogiri::HTML::SAX::Parser.new(handler)
+          catch(:found) {
+            parser.parse(chunk)
+          }
+          handler.encoding
+        rescue => e
+          nil
+        end
+        def initialize(io)
+          @io = io
+          @firstchunk = nil
+        end
+        def read(len)
+          # no support for a call without len
+          if !@firstchunk
+            @firstchunk = @io.read(len) or return nil
+            # This implementation expects and assumes that the first
+            # call from htmlReadIO() is made with a length long enough
+            # (~1KB) to achieve further encoding detection that
+            # libxml2 does not do.
+            if encoding = EncodingReader.detect_encoding(@firstchunk)
+              raise EncodingFoundException, encoding
+            end
+            # This chunk is stored for the next read in retry.
+            return @firstchunk
+          end
+          ret = @firstchunk.slice!(0, len)
+          if (len -= ret.length) > 0
+            rest = @io.read(len) and ret << rest
+          end
+          if ret.empty?
+            nil
+          else
+            ret
+          end
+        end
+      end
     end
   end
 end

data/lib/nokogiri/html/sax/parser.rb CHANGED

@@ -31,7 +31,9 @@ module Nokogiri
         def parse_memory data, encoding = 'UTF-8'
           raise ArgumentError unless data
           return unless data.length > 0
-          ParserContext.memory(data, encoding).parse_with self
+          ctx = ParserContext.memory(data, encoding)
+          yield ctx if block_given?
+          ctx.parse_with self
         end
         ###
@@ -40,7 +42,9 @@ module Nokogiri
           raise ArgumentError unless filename
           raise Errno::ENOENT unless File.exists?(filename)
           raise Errno::EISDIR if File.directory?(filename)
-          ParserContext.file(filename, encoding).parse_with self
+          ctx = ParserContext.file(filename, encoding)
+          yield ctx if block_given?
+          ctx.parse_with self
         end
       end
     end