RubyGems - pdf-reader - Versions diffs - 1.1.1 → 1.2.0 - Mend

pdf-reader 1.1.1 → 1.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

data/CHANGELOG +8 -0
data/bin/pdf_text +0 -2
data/examples/extract_images.rb +11 -6
data/lib/pdf/reader.rb +11 -5
data/lib/pdf/reader/buffer.rb +48 -42
data/lib/pdf/reader/cmap.rb +26 -11
data/lib/pdf/reader/filter.rb +11 -234
data/lib/pdf/reader/filter/ascii85.rb +25 -0
data/lib/pdf/reader/filter/ascii_hex.rb +26 -0
data/lib/pdf/reader/filter/depredict.rb +138 -0
data/lib/pdf/reader/filter/flate.rb +38 -0
data/lib/pdf/reader/filter/lzw.rb +18 -0
data/lib/pdf/reader/filter/null.rb +15 -0
data/lib/pdf/reader/filter/run_length.rb +46 -0
data/lib/pdf/reader/font.rb +1 -1
data/lib/pdf/reader/form_xobject.rb +25 -4
data/lib/pdf/reader/glyph_hash.rb +3 -2
data/lib/pdf/reader/object_cache.rb +39 -16
data/lib/pdf/reader/object_hash.rb +1 -1
data/lib/pdf/reader/page.rb +7 -1
data/lib/pdf/reader/page_state.rb +2 -1
data/lib/pdf/reader/stream.rb +1 -1
data/lib/pdf/reader/xref.rb +23 -4
metadata +99 -46

data/lib/pdf/reader/object_hash.rb CHANGED

@@ -44,7 +44,7 @@ class PDF::Reader
       @pdf_version = read_version
       @xref        = PDF::Reader::XRef.new(@io)
       @trailer     = @xref.trailer
-      @cache       = PDF::Reader::ObjectCache.new
+      @cache       = opts[:cache] || PDF::Reader::ObjectCache.new
       @sec_handler = build_security_handler(opts)
     end

data/lib/pdf/reader/page.rb CHANGED

@@ -20,14 +20,20 @@ module PDF
       # the raw PDF object that defines this page
       attr_reader :page_object
+      # a Hash-like object for storing cached data. Generally this is scoped to
+      # the current document and is used to avoid repeating expensive
+      # operations
+      attr_reader :cache
       # creates a new page wrapper.
       #
       # * objects - an ObjectHash instance that wraps a PDF file
       # * pagenum - an int specifying the page number to expose. 1 indexed.
       #
-      def initialize(objects, pagenum)
+      def initialize(objects, pagenum, options = {})
         @objects, @pagenum = objects, pagenum
         @page_object = objects.deref(objects.page_references[pagenum - 1])
+        @cache       = options[:cache] || {}
         unless @page_object.is_a?(::Hash)
           raise ArgumentError, "invalid page: #{pagenum}"

data/lib/pdf/reader/page_state.rb CHANGED

@@ -22,6 +22,7 @@ module PDF
       # starting a new page
       def initialize(page)
         @page          = page
+        @cache         = page.cache
         @objects       = page.objects
         @font_stack    = [build_fonts(page.fonts)]
         @xobject_stack = [page.xobjects]
@@ -176,7 +177,7 @@ module PDF
         concatenate_matrix(*matrix) if matrix
         if xobject.hash[:Subtype] == :Form
-          form = PDF::Reader::FormXObject.new(@page, xobject)
+          form = PDF::Reader::FormXObject.new(@page, xobject, :cache => @cache)
           @font_stack.unshift(form.font_objects)
           @xobject_stack.unshift(form.xobjects)
           yield form if block_given?

data/lib/pdf/reader/stream.rb CHANGED

@@ -58,7 +58,7 @@ class PDF::Reader
         end
         Array(hash[:Filter]).each_with_index do |filter, index|
-          @udata = Filter.new(filter, options[index]).filter(@udata)
+          @udata = Filter.with(filter, options[index]).filter(@udata)
         end
       end
       @udata

data/lib/pdf/reader/xref.rb CHANGED

@@ -53,9 +53,11 @@ class PDF::Reader
     #
     def initialize (io)
       @io = io
+      @junk_offset = calc_junk_offset(io) || 0
       @xref = {}
       @trailer = load_offsets
     end
     ################################################################################
     # return the number of objects in this file. Objects with multiple generations are
     # only counter once.
@@ -93,6 +95,7 @@ class PDF::Reader
     #
     def load_offsets(offset = nil)
       offset ||= new_buffer.find_first_xref_offset
+      offset += @junk_offset
       buf = new_buffer(offset)
       tok_one = buf.token
@@ -124,7 +127,7 @@ class PDF::Reader
             generation = buf.token.to_i
             state = buf.token
-            store(objid, generation, offset) if state == "n" && offset > 0
+            store(objid, generation, offset + @junk_offset) if state == "n" && offset > 0
             objid += 1
             params.clear
           end
@@ -143,7 +146,7 @@ class PDF::Reader
     end
     ################################################################################
-    # Read a XReaf stream from the underlying buffer instead of a traditional xref table.
+    # Read an XRef stream from the underlying buffer instead of a traditional xref table.
     #
     def load_xref_stream(stream)
       unless stream.is_a?(PDF::Reader::Stream) && stream.hash[:Type] == :XRef
@@ -169,7 +172,7 @@ class PDF::Reader
           f2    = unpack_bytes(entry[widths[0],widths[1]])
           f3    = unpack_bytes(entry[widths[0]+widths[1],widths[2]])
           if f1 == 1 && f2 > 0
-            store(objid, f3, f2)
+            store(objid, f3, f2 + @junk_offset)
           elsif f1 == 2 && f2 > 0
             store(objid, 0, PDF::Reader::Reference.new(f2, 0))
           end
@@ -203,7 +206,7 @@ class PDF::Reader
     # Wrap the io stream we're working with in a buffer that can tokenise it for us.
     #
     # We create multiple buffers so we can be tokenising multiple sections of the file
-    # at the same time without worring about clearing the buffers contents.
+    # at the same time without worrying about clearing the buffers contents.
     #
     def new_buffer(offset = 0)
       PDF::Reader::Buffer.new(@io, :seek => offset)
@@ -214,6 +217,22 @@ class PDF::Reader
     def store (id, gen, offset)
       (@xref[id] ||= {})[gen] ||= offset
     end
+    ################################################################################
+    # Returns the offset of the PDF document in the +stream+. In theory this
+    # should always be 0, but all sort of crazy junk is prefixed to PDF files
+    # in the real world.
+    #
+    # Checks up to 50 chars into the file, returns nil if no PDF data detected.
+    #
+    def calc_junk_offset(io)
+      io.rewind
+      offset = io.pos
+      until (c = io.readchar) == '%' || c == 37 || offset > 50
+        offset += 1
+      end
+      io.rewind
+      offset < 50 ? offset : nil
+    end
   end
   ################################################################################
 end

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: pdf-reader
 version: !ruby/object:Gem::Version
-  version: 1.1.1
+  version: 1.2.0
   prerelease:
 platform: ruby
 authors:
@@ -9,11 +9,11 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2012-05-09 00:00:00.000000000 Z
+date: 2012-08-30 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rake
-  requirement: &35841860 !ruby/object:Gem::Requirement
+  requirement: !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -21,10 +21,15 @@ dependencies:
         version: '0'
   type: :development
   prerelease: false
-  version_requirements: *35841860
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: roodi
-  requirement: &35841400 !ruby/object:Gem::Requirement
+  requirement: !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -32,10 +37,15 @@ dependencies:
         version: '0'
   type: :development
   prerelease: false
-  version_requirements: *35841400
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: rspec
-  requirement: &35840900 !ruby/object:Gem::Requirement
+  requirement: !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ~>
@@ -43,10 +53,15 @@ dependencies:
         version: '2.3'
   type: :development
   prerelease: false
-  version_requirements: *35840900
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ~>
+      - !ruby/object:Gem::Version
+        version: '2.3'
 - !ruby/object:Gem::Dependency
   name: ZenTest
-  requirement: &35840400 !ruby/object:Gem::Requirement
+  requirement: !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ~>
@@ -54,10 +69,15 @@ dependencies:
         version: 4.4.2
   type: :development
   prerelease: false
-  version_requirements: *35840400
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ~>
+      - !ruby/object:Gem::Version
+        version: 4.4.2
 - !ruby/object:Gem::Dependency
   name: Ascii85
-  requirement: &35839940 !ruby/object:Gem::Requirement
+  requirement: !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ~>
@@ -65,18 +85,44 @@ dependencies:
         version: 1.0.0
   type: :runtime
   prerelease: false
-  version_requirements: *35839940
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ~>
+      - !ruby/object:Gem::Version
+        version: 1.0.0
 - !ruby/object:Gem::Dependency
   name: ruby-rc4
-  requirement: &35839520 !ruby/object:Gem::Requirement
+  requirement: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
       - !ruby/object:Gem::Version
         version: '0'
+- !ruby/object:Gem::Dependency
+  name: hashery
+  requirement: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ~>
+      - !ruby/object:Gem::Version
+        version: '2.0'
   type: :runtime
   prerelease: false
-  version_requirements: *35839520
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ~>
+      - !ruby/object:Gem::Version
+        version: '2.0'
 description: The PDF::Reader library implements a PDF parser conforming as much as
   possible to the PDF specification from Adobe
 email:
@@ -93,54 +139,61 @@ extra_rdoc_files:
 - CHANGELOG
 - MIT-LICENSE
 files:
+- examples/extract_fonts.rb
+- examples/hash.rb
+- examples/extract_bates.rb
 - examples/metadata.rb
 - examples/extract_images.rb
-- examples/extract_bates.rb
-- examples/callbacks.rb
 - examples/rspec.rb
-- examples/hash.rb
-- examples/text.rb
-- examples/extract_fonts.rb
 - examples/page_count.rb
+- examples/callbacks.rb
+- examples/text.rb
 - examples/version.rb
-- lib/pdf/reader.rb
 - lib/pdf/hash.rb
-- lib/pdf/reader/print_receiver.rb
+- lib/pdf/reader.rb
 - lib/pdf/reader/xref.rb
-- lib/pdf/reader/buffer.rb
+- lib/pdf/reader/page.rb
+- lib/pdf/reader/encoding.rb
 - lib/pdf/reader/font.rb
-- lib/pdf/reader/parser.rb
-- lib/pdf/reader/error.rb
-- lib/pdf/reader/filter.rb
-- lib/pdf/reader/object_hash.rb
-- lib/pdf/reader/stream.rb
-- lib/pdf/reader/page_state.rb
-- lib/pdf/reader/standard_security_handler.rb
-- lib/pdf/reader/cmap.rb
-- lib/pdf/reader/form_xobject.rb
-- lib/pdf/reader/object_cache.rb
+- lib/pdf/reader/print_receiver.rb
+- lib/pdf/reader/lzw.rb
+- lib/pdf/reader/buffer.rb
 - lib/pdf/reader/object_stream.rb
-- lib/pdf/reader/encoding.rb
-- lib/pdf/reader/page_text_receiver.rb
+- lib/pdf/reader/cmap.rb
 - lib/pdf/reader/text_receiver.rb
-- lib/pdf/reader/glyph_hash.rb
-- lib/pdf/reader/glyphlist.txt
-- lib/pdf/reader/lzw.rb
 - lib/pdf/reader/register_receiver.rb
-- lib/pdf/reader/page.rb
-- lib/pdf/reader/abstract_strategy.rb
-- lib/pdf/reader/pages_strategy.rb
-- lib/pdf/reader/reference.rb
-- lib/pdf/reader/encodings/standard.txt
+- lib/pdf/reader/page_text_receiver.rb
 - lib/pdf/reader/encodings/mac_roman.txt
+- lib/pdf/reader/encodings/zapf_dingbats.txt
 - lib/pdf/reader/encodings/symbol.txt
 - lib/pdf/reader/encodings/win_ansi.txt
-- lib/pdf/reader/encodings/zapf_dingbats.txt
-- lib/pdf/reader/encodings/pdf_doc.txt
 - lib/pdf/reader/encodings/mac_expert.txt
+- lib/pdf/reader/encodings/standard.txt
+- lib/pdf/reader/encodings/pdf_doc.txt
+- lib/pdf/reader/filter.rb
+- lib/pdf/reader/filter/null.rb
+- lib/pdf/reader/filter/flate.rb
+- lib/pdf/reader/filter/lzw.rb
+- lib/pdf/reader/filter/ascii85.rb
+- lib/pdf/reader/filter/ascii_hex.rb
+- lib/pdf/reader/filter/run_length.rb
+- lib/pdf/reader/filter/depredict.rb
+- lib/pdf/reader/object_hash.rb
+- lib/pdf/reader/reference.rb
+- lib/pdf/reader/glyphlist.txt
+- lib/pdf/reader/token.rb
+- lib/pdf/reader/parser.rb
+- lib/pdf/reader/page_state.rb
+- lib/pdf/reader/error.rb
+- lib/pdf/reader/glyph_hash.rb
 - lib/pdf/reader/resource_methods.rb
+- lib/pdf/reader/standard_security_handler.rb
+- lib/pdf/reader/form_xobject.rb
+- lib/pdf/reader/stream.rb
+- lib/pdf/reader/pages_strategy.rb
+- lib/pdf/reader/abstract_strategy.rb
 - lib/pdf/reader/metadata_strategy.rb
-- lib/pdf/reader/token.rb
+- lib/pdf/reader/object_cache.rb
 - lib/pdf-reader.rb
 - Rakefile
 - README.rdoc
@@ -181,7 +234,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 1.8.11
+rubygems_version: 1.8.23
 signing_key:
 specification_version: 3
 summary: A library for accessing the content of PDF files