RubyGems - pdf-reader - Versions diffs - 2.1.0 → 2.4.1 - Mend

pdf-reader 2.1.0 → 2.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (73) hide show

checksums.yaml +4 -4
data/CHANGELOG +28 -1
data/README.md +2 -2
data/bin/pdf_callbacks +1 -1
data/bin/pdf_text +1 -1
data/lib/pdf-reader.rb +1 -0
data/lib/pdf/reader.rb +2 -2
data/lib/pdf/reader/afm/Courier-Bold.afm +342 -342
data/lib/pdf/reader/afm/Courier-BoldOblique.afm +342 -342
data/lib/pdf/reader/afm/Courier-Oblique.afm +342 -342
data/lib/pdf/reader/afm/Courier.afm +342 -342
data/lib/pdf/reader/afm/Helvetica-Bold.afm +2827 -2827
data/lib/pdf/reader/afm/Helvetica-BoldOblique.afm +2827 -2827
data/lib/pdf/reader/afm/Helvetica-Oblique.afm +3051 -3051
data/lib/pdf/reader/afm/Helvetica.afm +3051 -3051
data/lib/pdf/reader/afm/MustRead.html +19 -0
data/lib/pdf/reader/afm/Symbol.afm +213 -213
data/lib/pdf/reader/afm/Times-Bold.afm +2588 -2588
data/lib/pdf/reader/afm/Times-BoldItalic.afm +2384 -2384
data/lib/pdf/reader/afm/Times-Italic.afm +2667 -2667
data/lib/pdf/reader/afm/Times-Roman.afm +2419 -2419
data/lib/pdf/reader/afm/ZapfDingbats.afm +225 -225
data/lib/pdf/reader/buffer.rb +12 -11
data/lib/pdf/reader/cid_widths.rb +2 -0
data/lib/pdf/reader/cmap.rb +22 -12
data/lib/pdf/reader/encoding.rb +12 -9
data/lib/pdf/reader/error.rb +1 -0
data/lib/pdf/reader/filter.rb +1 -0
data/lib/pdf/reader/filter/ascii85.rb +1 -0
data/lib/pdf/reader/filter/ascii_hex.rb +2 -0
data/lib/pdf/reader/filter/depredict.rb +1 -0
data/lib/pdf/reader/filter/flate.rb +6 -4
data/lib/pdf/reader/filter/lzw.rb +2 -0
data/lib/pdf/reader/filter/null.rb +2 -0
data/lib/pdf/reader/filter/run_length.rb +3 -1
data/lib/pdf/reader/font.rb +11 -2
data/lib/pdf/reader/font_descriptor.rb +1 -0
data/lib/pdf/reader/form_xobject.rb +1 -0
data/lib/pdf/reader/glyph_hash.rb +1 -0
data/lib/pdf/reader/lzw.rb +2 -1
data/lib/pdf/reader/null_security_handler.rb +1 -0
data/lib/pdf/reader/object_cache.rb +1 -0
data/lib/pdf/reader/object_hash.rb +22 -10
data/lib/pdf/reader/object_stream.rb +1 -0
data/lib/pdf/reader/orientation_detector.rb +5 -4
data/lib/pdf/reader/overlapping_runs_filter.rb +65 -0
data/lib/pdf/reader/page.rb +29 -0
data/lib/pdf/reader/page_layout.rb +10 -5
data/lib/pdf/reader/page_state.rb +10 -1
data/lib/pdf/reader/page_text_receiver.rb +5 -1
data/lib/pdf/reader/pages_strategy.rb +1 -0
data/lib/pdf/reader/parser.rb +5 -4
data/lib/pdf/reader/print_receiver.rb +1 -0
data/lib/pdf/reader/reference.rb +1 -0
data/lib/pdf/reader/register_receiver.rb +1 -0
data/lib/pdf/reader/resource_methods.rb +1 -0
data/lib/pdf/reader/standard_security_handler.rb +1 -0
data/lib/pdf/reader/standard_security_handler_v5.rb +2 -0
data/lib/pdf/reader/stream.rb +1 -0
data/lib/pdf/reader/synchronized_cache.rb +1 -0
data/lib/pdf/reader/text_run.rb +25 -0
data/lib/pdf/reader/token.rb +1 -0
data/lib/pdf/reader/transformation_matrix.rb +1 -0
data/lib/pdf/reader/unimplemented_security_handler.rb +1 -0
data/lib/pdf/reader/width_calculator.rb +1 -0
data/lib/pdf/reader/width_calculator/built_in.rb +18 -1
data/lib/pdf/reader/width_calculator/composite.rb +1 -0
data/lib/pdf/reader/width_calculator/true_type.rb +2 -2
data/lib/pdf/reader/width_calculator/type_one_or_three.rb +1 -0
data/lib/pdf/reader/width_calculator/type_zero.rb +1 -0
data/lib/pdf/reader/xref.rb +11 -5
metadata +17 -13
data/lib/pdf/hash.rb +0 -19

data/lib/pdf/reader/cid_widths.rb CHANGED

@@ -1,4 +1,6 @@
 # coding: utf-8
+# frozen_string_literal: true
 #
 require 'forwardable'

data/lib/pdf/reader/cmap.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 ################################################################################
 #
@@ -95,25 +96,34 @@ class PDF::Reader
       Parser.new(buffer)
     end
+    # The following includes some manual decoding of UTF-16BE strings into unicode codepoints. In
+    # theory we could replace all the UTF-16 code with something based on Ruby's encoding support:
+    #
+    #    str.dup.force_encoding("utf-16be").encode!("utf-8").unpack("U*")
+    #
+    # However, some cmaps contain broken surrogate pairs and the ruby encoding support raises an
+    # exception when we try converting broken UTF-16 to UTF-8
+    #
     def str_to_int(str)
       return nil if str.nil? || str.size == 0
-      unpacked_string = if str.size == 1 # UTF-8
+      unpacked_string = if str.bytesize == 1 # UTF-8
         str.unpack("C*")
       else # UTF-16
          str.unpack("n*")
       end
-      if unpacked_string.size == 1
-        unpacked_string
-      elsif unpacked_string.size == 2 && unpacked_string[0] > 0xD800 && unpacked_string[0] < 0xDBFF
-        # this is a Unicode UTF-16 "Surrogate Pair" see Unicode Spec. Chapter 3.7
-        # lets convert to a UTF-32. (the high bit is between 0xD800-0xDBFF, the
-        # low bit is between 0xDC00-0xDFFF) for example: U+1D44E (U+D835 U+DC4E)
-        [(unpacked_string[0] - 0xD800) * 0x400 + (unpacked_string[1] - 0xDC00) + 0x10000]
-      else
-        # it is a bad idea to just return the first 16 bits, as this doesn't allow
-        # for ligatures for example fi (U+0066 U+0069)
-        unpacked_string
+      result = []
+      while unpacked_string.any? do
+        if unpacked_string.size >= 2 && unpacked_string[0] > 0xD800 && unpacked_string[0] < 0xDBFF
+          # this is a Unicode UTF-16 "Surrogate Pair" see Unicode Spec. Chapter 3.7
+          # lets convert to a UTF-32. (the high bit is between 0xD800-0xDBFF, the
+          # low bit is between 0xDC00-0xDFFF) for example: U+1D44E (U+D835 U+DC4E)
+          points = [unpacked_string.shift, unpacked_string.shift]
+          result << (points[0] - 0xD800) * 0x400 + (points[1] - 0xDC00) + 0x10000
+        else
+          result << unpacked_string.shift
+        end
       end
+      result
     end
     def process_bfchar_instructions(instructions)

data/lib/pdf/reader/encoding.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 ################################################################################
 #
@@ -39,20 +40,22 @@ class PDF::Reader
       @mapping  = default_mapping # maps from character codes to Unicode codepoints
       @string_cache  = {} # maps from character codes to UTF-8 strings.
-      if enc.kind_of?(Hash)
-        self.differences = enc[:Differences] if enc[:Differences]
-        enc = enc[:Encoding] || enc[:BaseEncoding]
-      elsif enc != nil
-        enc = enc.to_sym
+      @enc_name = if enc.kind_of?(Hash)
+        enc[:Encoding] || enc[:BaseEncoding]
+      elsif enc && enc.respond_to?(:to_sym)
+        enc.to_sym
       else
-        enc = nil
+        :StandardEncoding
       end
-      @enc_name = enc
-      @unpack   = get_unpack(enc)
-      @map_file = get_mapping_file(enc)
+      @unpack   = get_unpack(@enc_name)
+      @map_file = get_mapping_file(@enc_name)
       load_mapping(@map_file) if @map_file
+      if enc.is_a?(Hash) && enc[:Differences]
+        self.differences = enc[:Differences]
+      end
     end
     # set the differences table for this encoding. should be an array in the following format:

data/lib/pdf/reader/error.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 ################################################################################
 #

data/lib/pdf/reader/filter.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 ################################################################################
 #

data/lib/pdf/reader/filter/ascii85.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 require 'ascii85'

data/lib/pdf/reader/filter/ascii_hex.rb CHANGED

@@ -1,4 +1,6 @@
 # coding: utf-8
+# frozen_string_literal: true
 #
 class PDF::Reader
   module Filter # :nodoc:

data/lib/pdf/reader/filter/depredict.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 class PDF::Reader
   module Filter # :nodoc:

data/lib/pdf/reader/filter/flate.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 require 'zlib'
@@ -7,6 +8,8 @@ class PDF::Reader
   module Filter # :nodoc:
     # implementation of the Flate (zlib) stream filter
     class Flate
+      ZLIB_AUTO_DETECT_ZLIB_OR_GZIP = 47  # Zlib::MAX_WBITS + 32
       def initialize(options = {})
         @options = options
       end
@@ -16,16 +19,15 @@ class PDF::Reader
       def filter(data)
         deflated = nil
         begin
-          deflated = Zlib::Inflate.new.inflate(data)
+          deflated = Zlib::Inflate.new(ZLIB_AUTO_DETECT_ZLIB_OR_GZIP).inflate(data)
         rescue Zlib::DataError => e
           # by default, Ruby's Zlib assumes the data it's inflating
-          # is RFC1951 deflated data, wrapped in a RFC1951 zlib container.
-          # If that fails, then use an undocumented 'feature' to attempt to inflate
+          # is RFC1951 deflated data, wrapped in a RFC1950 zlib container. If that
+          # fails, then use a lightly-documented 'feature' to attempt to inflate
           # the data as a raw RFC1951 stream.
           #
           # See
           # - http://blade.nagaokaut.ac.jp/cgi-bin/scat.rb/ruby/ruby-talk/243545
-          # - http://www.gzip.org/zlib/zlib_faq.html#faq38
           deflated = Zlib::Inflate.new(-Zlib::MAX_WBITS).inflate(data)
         end
         Depredict.new(@options).filter(deflated)

data/lib/pdf/reader/filter/lzw.rb CHANGED

@@ -1,4 +1,6 @@
 # coding: utf-8
+# frozen_string_literal: true
 #
 class PDF::Reader
   module Filter # :nodoc:

data/lib/pdf/reader/filter/null.rb CHANGED

@@ -1,4 +1,6 @@
 # coding: utf-8
+# frozen_string_literal: true
 #
 class PDF::Reader
   module Filter # :nodoc:

data/lib/pdf/reader/filter/run_length.rb CHANGED

@@ -1,4 +1,6 @@
 # coding: utf-8
+# frozen_string_literal: true
 #
 class PDF::Reader # :nodoc:
   module Filter # :nodoc:
@@ -12,7 +14,7 @@ class PDF::Reader # :nodoc:
       # Decode the specified data with the RunLengthDecode compression algorithm
       def filter(data)
         pos = 0
-        out = ""
+        out = "".dup
         while pos < data.length
           length = data.getbyte(pos)

data/lib/pdf/reader/font.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 ################################################################################
 #
@@ -96,7 +97,13 @@ class PDF::Reader
       elsif @subtype == :Type3
         PDF::Reader::WidthCalculator::TypeOneOrThree.new(self)
       elsif @subtype == :TrueType
-        PDF::Reader::WidthCalculator::TrueType.new(self)
+        if @font_descriptor
+          PDF::Reader::WidthCalculator::TrueType.new(self)
+        else
+          # A TrueType font that isn't embedded. Most readers look for a version on the
+          # local system and fallback to a substitute. For now, we go straight to a substitute
+          PDF::Reader::WidthCalculator::BuiltIn.new(self)
+        end
       elsif @subtype == :CIDFontType0 || @subtype == :CIDFontType2
         PDF::Reader::WidthCalculator::Composite.new(self)
       else
@@ -124,7 +131,9 @@ class PDF::Reader
       if obj[:ToUnicode]
         # ToUnicode is optional for Type1 and Type3
         stream = @ohash.object(obj[:ToUnicode])
-        @tounicode = PDF::Reader::CMap.new(stream.unfiltered_data)
+        if stream.is_a?(PDF::Reader::Stream)
+          @tounicode = PDF::Reader::CMap.new(stream.unfiltered_data)
+        end
       end
     end

data/lib/pdf/reader/font_descriptor.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 require 'ttfunk'

data/lib/pdf/reader/form_xobject.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 require 'digest/md5'

data/lib/pdf/reader/glyph_hash.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 ################################################################################
 #

data/lib/pdf/reader/lzw.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 module PDF
@@ -82,7 +83,7 @@ module PDF
       #
       def self.decode(data)
         stream = BitStream.new data.to_s, 9 # size of codes between 9 and 12 bits
-        result = ''
+        result = "".dup
         until (code = stream.read) == CODE_EOD
           if code == CODE_CLEAR_TABLE
             stream.set_bits_in_chunk(9)

data/lib/pdf/reader/null_security_handler.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 class PDF::Reader

data/lib/pdf/reader/object_cache.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 require 'hashery/lru_hash'

data/lib/pdf/reader/object_hash.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 class PDF::Reader
   # Provides low level access to the objects in a PDF file via a hash-like
@@ -77,16 +78,7 @@ class PDF::Reader
         key = PDF::Reader::Reference.new(key.to_i, 0)
       end
-      if @cache.has_key?(key)
-        @cache[key]
-      elsif xref[key].is_a?(Integer)
-        buf = new_buffer(xref[key])
-        @cache[key] = decrypt(key, Parser.new(buf, self).object(key.id, key.gen))
-      elsif xref[key].is_a?(PDF::Reader::Reference)
-        container_key = xref[key]
-        object_streams[container_key] ||= PDF::Reader::ObjectStream.new(object(container_key))
-        @cache[key] = object_streams[container_key][key.id]
-      end
+      @cache[key] ||= fetch_object(key) || fetch_object_stream(key)
     rescue InvalidObjectError
       return default
     end
@@ -253,6 +245,26 @@ class PDF::Reader
     private
+    # parse a traditional object from the PDF, starting from the byte offset indicated
+    # in the xref table
+    #
+    def fetch_object(key)
+      if xref[key].is_a?(Integer)
+        buf = new_buffer(xref[key])
+        decrypt(key, Parser.new(buf, self).object(key.id, key.gen))
+      end
+    end
+    # parse a object that's embedded in an object stream in the PDF
+    #
+    def fetch_object_stream(key)
+      if xref[key].is_a?(PDF::Reader::Reference)
+        container_key = xref[key]
+        object_streams[container_key] ||= PDF::Reader::ObjectStream.new(object(container_key))
+        object_streams[container_key][key.id]
+      end
+    end
     # Private implementation of deref!, which exists to ensure the `seen` argument
     # isn't publicly available. It's used to avoid endless loops in the recursion, and
     # doesn't need to be part of the public API.

data/lib/pdf/reader/object_stream.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 class PDF::Reader

data/lib/pdf/reader/orientation_detector.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 class PDF::Reader
   # Small util class for detecting the orientation of a single PDF page. Accounts
@@ -21,12 +22,12 @@ class PDF::Reader
     def detect_orientation
       llx,lly,urx,ury = @attributes[:MediaBox]
       rotation        = @attributes[:Rotate].to_i
-      width           = urx.to_i - llx.to_i
-      height          = ury.to_i - lly.to_i
+      width           = (urx.to_i - llx.to_i).abs
+      height          = (ury.to_i - lly.to_i).abs
       if width > height
-        [0,180].include?(rotation) ? 'landscape' : 'portrait'
+        (rotation % 180).zero? ? 'landscape' : 'portrait'
       else
-        [0,180].include?(rotation) ? 'portrait' : 'landscape'
+        (rotation % 180).zero? ? 'portrait' : 'landscape'
       end
     end
   end

data/lib/pdf/reader/overlapping_runs_filter.rb ADDED

@@ -0,0 +1,65 @@
+# coding: utf-8
+class PDF::Reader
+  # remove duplicates from a collection of TextRun objects. This can be helpful when a PDF
+  # uses slightly offset overlapping characters to achieve a fake 'bold' effect.
+  class OverlappingRunsFilter
+    # This should be between 0 and 1. If TextRun B obscures this much of TextRun A (and they
+    # have identical characters) then one will be discarded
+    OVERLAPPING_THRESHOLD = 0.5
+    def self.exclude_redundant_runs(runs)
+      sweep_line_status = Array.new
+      event_point_schedule = Array.new
+      to_exclude = []
+      runs.each do |run|
+        event_point_schedule << EventPoint.new(run.x, run)
+        event_point_schedule << EventPoint.new(run.endx, run)
+      end
+      event_point_schedule.sort! { |a,b| a.x <=> b.x }
+      event_point_schedule.each do |event_point|
+        run = event_point.run
+        if event_point.start?
+          if detect_intersection(sweep_line_status, event_point)
+            to_exclude << run
+          end
+          sweep_line_status.push(run)
+        else
+          sweep_line_status.delete(run)
+        end
+      end
+      runs - to_exclude
+    end
+    def self.detect_intersection(sweep_line_status, event_point)
+      sweep_line_status.each do |open_text_run|
+        if event_point.x >= open_text_run.x &&
+            event_point.x <= open_text_run.endx &&
+            open_text_run.intersection_area_percent(event_point.run) >= OVERLAPPING_THRESHOLD
+          return true
+        end
+      end
+      return false
+    end
+  end
+  # Utility class used to avoid modifying the underlying TextRun objects while we're
+  # looking for duplicates
+  class EventPoint
+    attr_reader :x, :run
+    def initialize x, run
+      @x, @run = x, run
+    end
+    def start?
+      @x == @run.x
+    end
+  end
+end

data/lib/pdf/reader/page.rb CHANGED

@@ -1,4 +1,5 @@
 # coding: utf-8
+# frozen_string_literal: true
 module PDF
   class Reader
@@ -123,6 +124,34 @@ module PDF
         }.join(" ")
       end
+      # returns the angle to rotate the page clockwise. Always 0, 90, 180 or 270
+      #
+      def rotate
+        value = attributes[:Rotate].to_i
+        case value
+        when 0, 90, 180, 270
+          value
+        else
+          0
+        end
+      end
+      # returns the "boxes" that define the page object.
+      # values are defaulted according to section 7.7.3.3 of the PDF Spec 1.7
+      #
+      def boxes
+        mediabox = attributes[:MediaBox]
+        cropbox = attributes[:Cropbox] || mediabox
+        {
+          MediaBox: objects.deref!(mediabox),
+          CropBox: objects.deref!(cropbox),
+          BleedBox: objects.deref!(attributes[:BleedBox] || cropbox),
+          TrimBox: objects.deref!(attributes[:TrimBox] || cropbox),
+          ArtBox: objects.deref!(attributes[:ArtBox] || cropbox)
+        }
+      end
       private
       def root