RubyGems - pdf-reader - Versions diffs - 2.6.0 → 2.7.0 - Mend

pdf-reader 2.6.0 → 2.7.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (59) hide show

checksums.yaml +4 -4
data/CHANGELOG +13 -1
data/examples/rspec.rb +1 -0
data/lib/pdf/reader/buffer.rb +1 -0
data/lib/pdf/reader/cid_widths.rb +1 -0
data/lib/pdf/reader/cmap.rb +5 -3
data/lib/pdf/reader/encoding.rb +2 -1
data/lib/pdf/reader/error.rb +8 -0
data/lib/pdf/reader/filter/ascii85.rb +2 -0
data/lib/pdf/reader/filter/ascii_hex.rb +6 -1
data/lib/pdf/reader/filter/depredict.rb +7 -5
data/lib/pdf/reader/filter/flate.rb +2 -0
data/lib/pdf/reader/filter/lzw.rb +2 -0
data/lib/pdf/reader/filter/null.rb +1 -0
data/lib/pdf/reader/filter/run_length.rb +19 -13
data/lib/pdf/reader/filter.rb +1 -0
data/lib/pdf/reader/font.rb +1 -0
data/lib/pdf/reader/font_descriptor.rb +1 -0
data/lib/pdf/reader/form_xobject.rb +1 -0
data/lib/pdf/reader/glyph_hash.rb +1 -0
data/lib/pdf/reader/lzw.rb +4 -2
data/lib/pdf/reader/null_security_handler.rb +1 -0
data/lib/pdf/reader/object_cache.rb +1 -0
data/lib/pdf/reader/object_hash.rb +5 -2
data/lib/pdf/reader/object_stream.rb +1 -0
data/lib/pdf/reader/overlapping_runs_filter.rb +11 -4
data/lib/pdf/reader/page.rb +60 -9
data/lib/pdf/reader/page_layout.rb +24 -14
data/lib/pdf/reader/page_state.rb +11 -10
data/lib/pdf/reader/page_text_receiver.rb +13 -8
data/lib/pdf/reader/pages_strategy.rb +1 -0
data/lib/pdf/reader/parser.rb +4 -1
data/lib/pdf/reader/point.rb +25 -0
data/lib/pdf/reader/print_receiver.rb +1 -0
data/lib/pdf/reader/rectangle.rb +95 -0
data/lib/pdf/reader/reference.rb +1 -0
data/lib/pdf/reader/register_receiver.rb +1 -0
data/lib/pdf/reader/resource_methods.rb +5 -0
data/lib/pdf/reader/standard_security_handler.rb +1 -0
data/lib/pdf/reader/standard_security_handler_v5.rb +1 -0
data/lib/pdf/reader/stream.rb +1 -0
data/lib/pdf/reader/synchronized_cache.rb +1 -0
data/lib/pdf/reader/text_run.rb +1 -0
data/lib/pdf/reader/token.rb +1 -0
data/lib/pdf/reader/transformation_matrix.rb +1 -0
data/lib/pdf/reader/unimplemented_security_handler.rb +1 -0
data/lib/pdf/reader/width_calculator/built_in.rb +1 -0
data/lib/pdf/reader/width_calculator/composite.rb +1 -0
data/lib/pdf/reader/width_calculator/true_type.rb +1 -0
data/lib/pdf/reader/width_calculator/type_one_or_three.rb +1 -0
data/lib/pdf/reader/width_calculator/type_zero.rb +1 -0
data/lib/pdf/reader/width_calculator.rb +1 -0
data/lib/pdf/reader/xref.rb +1 -0
data/lib/pdf/reader/zero_width_runs_filter.rb +2 -0
data/lib/pdf/reader.rb +14 -4
data/lib/pdf-reader.rb +1 -0
data/rbi/pdf-reader.rbi +1744 -0
metadata +12 -10
data/lib/pdf/reader/orientation_detector.rb +0 -34

data/lib/pdf/reader/page_state.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 require 'pdf/reader/transformation_matrix'
@@ -312,7 +313,7 @@ class PDF::Reader
       #                 may need to be added
       #
       def process_glyph_displacement(w0, tj, word_boundary)
-        fs = font_size # font size
+        fs = state[:text_font_size]
         tc = state[:char_spacing]
         if word_boundary
           tw = state[:word_spacing]
@@ -330,16 +331,16 @@ class PDF::Reader
           # apply horizontal scaling to spacing values but not font size
           tx = ((w0 * fs) + tc + tw) * th
         end
-        # TODO: I'm pretty sure that tx shouldn't need to be divided by
-        #       ctm[0] here, but this gets my tests green and I'm out of
-        #       ideas for now
         # TODO: support ty > 0
-        if ctm.a == 1 || ctm.a == 0
-          @text_matrix.horizontal_displacement_multiply!(tx)
-        else
-          @text_matrix.horizontal_displacement_multiply!(tx/ctm.a)
-        end
+        ty = 0
+        temp = TransformationMatrix.new(1, 0,
+                                        0, 1,
+                                        tx, ty)
+        @text_matrix = temp.multiply!(
+          @text_matrix.a, @text_matrix.b,
+          @text_matrix.c, @text_matrix.d,
+          @text_matrix.e, @text_matrix.f
+        )
         @font_size = @text_rendering_matrix = nil # invalidate cached value
       end

data/lib/pdf/reader/page_text_receiver.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 require 'forwardable'
@@ -44,14 +45,11 @@ module PDF
         @page = page
         @content = []
         @characters = []
-        @mediabox = page.objects.deref(page.attributes[:MediaBox])
-        device_bl = apply_rotation(*@state.ctm_transform(@mediabox[0], @mediabox[1]))
-        device_tr = apply_rotation(*@state.ctm_transform(@mediabox[2], @mediabox[3]))
-        @device_mediabox = [ device_bl.first, device_bl.last, device_tr.first, device_tr.last]
       end
       def content
-        PageLayout.new(@characters, @device_mediabox).to_s
+        mediabox = @page.rectangles[:MediaBox].to_a
+        PageLayout.new(@characters, mediabox).to_s
       end
       #####################################################
@@ -121,6 +119,12 @@ module PDF
         end
       end
+      # TODO: revist this. It rotates the co-ordinates to the right direction, but I don't
+      #       think it sets the correct x,y values. We get away with it because we don't
+      #       return the text with co-ordinates, only the full text arranged in a string.
+      #
+      #       We should provide an API for extracting the text with positioning data and spec
+      #       that. I suspect the co-ords might be wrong for rotated pages
       def apply_rotation(x, y)
         if @page.rotate == 90
           tmp = x
@@ -128,10 +132,11 @@ module PDF
           y = tmp * -1
         elsif @page.rotate == 180
           y *= -1
+          x *= -1
         elsif @page.rotate == 270
-          tmp = x
-          x = y * -1
-          y = tmp * -1
+          tmp = y
+          y = x
+          x = tmp * -1
         end
         return x, y
       end

data/lib/pdf/reader/pages_strategy.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 ################################################################################

data/lib/pdf/reader/parser.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 ################################################################################
@@ -166,7 +167,9 @@ class PDF::Reader
       # add a missing digit if required, as required by the spec
       str << "0" unless str.size % 2 == 0
-      str.scan(/../).map {|i| i.hex.chr}.join.force_encoding("binary")
+      str.chars.each_slice(2).map { |nibbles|
+        nibbles.join("").hex.chr
+      }.join.force_encoding("binary")
     end
     ################################################################################
     # Reads a PDF String from the buffer and converts it to a Ruby String

data/lib/pdf/reader/point.rb ADDED Viewed

@@ -0,0 +1,25 @@
+# coding: utf-8
+# typed: true
+# frozen_string_literal: true
+module PDF
+  class Reader
+    # PDFs are all about positioning content on a page, so there's lots of need to
+    # work with a set of X,Y coordinates.
+    #
+    class Point
+      attr_reader :x, :y
+      def initialize(x, y)
+        @x, @y = x, y
+      end
+      def ==(other)
+        other.respond_to?(:x) && other.respond_to?(:y) && x == other.x && y == other.y
+      end
+    end
+  end
+end

data/lib/pdf/reader/print_receiver.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
 class PDF::Reader

data/lib/pdf/reader/rectangle.rb ADDED Viewed

@@ -0,0 +1,95 @@
+# coding: utf-8
+# typed: true
+# frozen_string_literal: true
+module PDF
+  class Reader
+    # PDFs represent rectangles all over the place. They're 4 element arrays, like this:
+    #
+    #     [A, B, C, D]
+    #
+    # Four element arrays are yucky to work with though, so here's a class that's better.
+    # Initialize it with the 4 elements, and get utility functions (width, height, etc)
+    # for free.
+    #
+    # By convention the first two elements are x1, y1, the co-ords for the bottom left corner
+    # of the rectangle. The third and fourth elements are x2, y2, the co-ords for the top left
+    # corner of the rectangle. It's valid for the alternative corners to be used though, so
+    # we don't assume which is which.
+    #
+    class Rectangle
+      attr_reader :bottom_left, :bottom_right, :top_left, :top_right
+      def initialize(x1, y1, x2, y2)
+        set_corners(x1, y1, x2, y2)
+      end
+      def ==(other)
+        to_a == other.to_a
+      end
+      def height
+        top_right.y - bottom_right.y
+      end
+      def width
+        bottom_right.x - bottom_left.x
+      end
+      # A pdf-style 4-number array
+      def to_a
+        [
+          bottom_left.x,
+          bottom_left.y,
+          top_right.x,
+          top_right.y,
+        ]
+      end
+      def apply_rotation(degrees)
+        return if degrees != 90 && degrees != 180 && degrees != 270
+        if degrees == 90
+          new_x1 = bottom_left.x
+          new_y1 = bottom_left.y - width
+          new_x2 = bottom_left.x + height
+          new_y2 = bottom_left.y
+        elsif degrees == 180
+          new_x1 = bottom_left.x - width
+          new_y1 = bottom_left.y - height
+          new_x2 = bottom_left.x
+          new_y2 = bottom_left.y
+        elsif degrees == 270
+          new_x1 = bottom_left.x - height
+          new_y1 = bottom_left.y
+          new_x2 = bottom_left.x
+          new_y2 = bottom_left.y + width
+        end
+        set_corners(new_x1, new_y1, new_x2, new_y2)
+      end
+      private
+      def set_corners(x1, y1, x2, y2)
+        @bottom_left = PDF::Reader::Point.new(
+          [x1, x2].min,
+          [y1, y2].min,
+        )
+        @bottom_right = PDF::Reader::Point.new(
+          [x1, x2].max,
+          [y1, y2].min,
+        )
+        @top_left = PDF::Reader::Point.new(
+          [x1, x2].min,
+          [y1, y2].max,
+        )
+        @top_right = PDF::Reader::Point.new(
+          [x1, x2].max,
+          [y1, y2].max,
+        )
+      end
+    end
+  end
+end

data/lib/pdf/reader/reference.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 ################################################################################

data/lib/pdf/reader/register_receiver.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
 # Copyright (C) 2010 James Healy (jimmy@deefa.com)

data/lib/pdf/reader/resource_methods.rb CHANGED Viewed

@@ -1,12 +1,17 @@
 # coding: utf-8
+# typed: false
 # frozen_string_literal: true
+# Setting this file to "typed: true" is difficult because it's a mixin that assumes some things
+# are aavailable from the class, like @objects and resources. Sorbet doesn't know about them.
 module PDF
   class Reader
     # mixin for common methods in Page and FormXobjects
     #
     module ResourceMethods
       # Returns a Hash of color spaces that are available to this page
       #
       # NOTE: this method de-serialise objects from the underlying PDF

data/lib/pdf/reader/standard_security_handler.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 ################################################################################

data/lib/pdf/reader/standard_security_handler_v5.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 require 'digest'

data/lib/pdf/reader/stream.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 ################################################################################

data/lib/pdf/reader/synchronized_cache.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # encoding: utf-8
+# typed: true
 # frozen_string_literal: true
 # utilities.rb : General-purpose utility classes which don't fit anywhere else

data/lib/pdf/reader/text_run.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 class PDF::Reader

data/lib/pdf/reader/token.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
 ################################################################################

data/lib/pdf/reader/transformation_matrix.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 class PDF::Reader

data/lib/pdf/reader/unimplemented_security_handler.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
 class PDF::Reader

data/lib/pdf/reader/width_calculator/built_in.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 require 'afm'

data/lib/pdf/reader/width_calculator/composite.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 class PDF::Reader

data/lib/pdf/reader/width_calculator/true_type.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 class PDF::Reader

data/lib/pdf/reader/width_calculator/type_one_or_three.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 class PDF::Reader

data/lib/pdf/reader/width_calculator/type_zero.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 class PDF::Reader

data/lib/pdf/reader/width_calculator.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
 # PDF files may define fonts in a number of ways. Each approach means we must

data/lib/pdf/reader/xref.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 ################################################################################

data/lib/pdf/reader/zero_width_runs_filter.rb CHANGED Viewed

@@ -1,4 +1,6 @@
 # coding: utf-8
+# typed: strict
+# frozen_string_literal: true
 class PDF::Reader
   # There's no point rendering zero-width characters

data/lib/pdf/reader.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: true
 # frozen_string_literal: true
 ################################################################################
@@ -136,7 +137,7 @@ module PDF
     def page_count
       pages = @objects.deref(root[:Pages])
       unless pages.kind_of?(::Hash)
-        raise MalformedPDFError, 'Pages structure is missing'
+        raise MalformedPDFError, "Pages structure is missing #{pages.class}"
       end
       @page_count ||= @objects.deref(pages[:Count])
     end
@@ -221,7 +222,7 @@ module PDF
       when Array then
         obj.map { |item| doc_strings_to_utf8(item) }
       when String then
-        if obj[0,2].unpack("C*") == [254, 255]
+        if has_utf16_bom?(obj)
           utf16_to_utf8(obj)
         else
           pdfdoc_to_utf8(obj)
@@ -231,6 +232,14 @@ module PDF
       end
     end
+    def has_utf16_bom?(str)
+      first_bytes = str[0,2]
+      return false if first_bytes.nil?
+      first_bytes.unpack("C*") == [254, 255]
+    end
     # TODO find a PDF I can use to spec this behaviour
     #
     def pdfdoc_to_utf8(obj)
@@ -242,7 +251,7 @@ module PDF
     # String#encode
     #
     def utf16_to_utf8(obj)
-      str = obj[2, obj.size]
+      str = obj[2, obj.size].to_s
       str = str.unpack("n*").pack("U*")
       str.force_encoding("utf-8")
       str
@@ -286,7 +295,9 @@ require 'pdf/reader/object_hash'
 require 'pdf/reader/object_stream'
 require 'pdf/reader/pages_strategy'
 require 'pdf/reader/parser'
+require 'pdf/reader/point'
 require 'pdf/reader/print_receiver'
+require 'pdf/reader/rectangle'
 require 'pdf/reader/reference'
 require 'pdf/reader/register_receiver'
 require 'pdf/reader/null_security_handler'
@@ -299,5 +310,4 @@ require 'pdf/reader/page_state'
 require 'pdf/reader/page_text_receiver'
 require 'pdf/reader/token'
 require 'pdf/reader/xref'
-require 'pdf/reader/orientation_detector'
 require 'pdf/reader/page'

data/lib/pdf-reader.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
 require "pdf/reader"