RubyGems - pdf-reader - Versions diffs - 2.2.0 → 2.11.0 - Mend

pdf-reader 2.2.0 → 2.11.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (90) hide show

checksums.yaml +4 -4
data/CHANGELOG +90 -0
data/README.md +18 -3
data/Rakefile +1 -1
data/bin/pdf_callbacks +1 -1
data/bin/pdf_text +1 -1
data/examples/extract_fonts.rb +12 -7
data/examples/rspec.rb +1 -0
data/lib/pdf/reader/aes_v2_security_handler.rb +41 -0
data/lib/pdf/reader/aes_v3_security_handler.rb +38 -0
data/lib/pdf/reader/afm/Courier-Bold.afm +342 -342
data/lib/pdf/reader/afm/Courier-BoldOblique.afm +342 -342
data/lib/pdf/reader/afm/Courier-Oblique.afm +342 -342
data/lib/pdf/reader/afm/Courier.afm +342 -342
data/lib/pdf/reader/afm/Helvetica-Bold.afm +2827 -2827
data/lib/pdf/reader/afm/Helvetica-BoldOblique.afm +2827 -2827
data/lib/pdf/reader/afm/Helvetica-Oblique.afm +3051 -3051
data/lib/pdf/reader/afm/Helvetica.afm +3051 -3051
data/lib/pdf/reader/afm/MustRead.html +19 -0
data/lib/pdf/reader/afm/Symbol.afm +213 -213
data/lib/pdf/reader/afm/Times-Bold.afm +2588 -2588
data/lib/pdf/reader/afm/Times-BoldItalic.afm +2384 -2384
data/lib/pdf/reader/afm/Times-Italic.afm +2667 -2667
data/lib/pdf/reader/afm/Times-Roman.afm +2419 -2419
data/lib/pdf/reader/afm/ZapfDingbats.afm +225 -225
data/lib/pdf/reader/bounding_rectangle_runs_filter.rb +16 -0
data/lib/pdf/reader/buffer.rb +91 -47
data/lib/pdf/reader/cid_widths.rb +7 -4
data/lib/pdf/reader/cmap.rb +83 -59
data/lib/pdf/reader/encoding.rb +17 -14
data/lib/pdf/reader/error.rb +15 -3
data/lib/pdf/reader/filter/ascii85.rb +7 -1
data/lib/pdf/reader/filter/ascii_hex.rb +6 -1
data/lib/pdf/reader/filter/depredict.rb +12 -10
data/lib/pdf/reader/filter/flate.rb +30 -16
data/lib/pdf/reader/filter/lzw.rb +2 -0
data/lib/pdf/reader/filter/null.rb +1 -1
data/lib/pdf/reader/filter/run_length.rb +19 -13
data/lib/pdf/reader/filter.rb +11 -11
data/lib/pdf/reader/font.rb +89 -26
data/lib/pdf/reader/font_descriptor.rb +22 -18
data/lib/pdf/reader/form_xobject.rb +18 -5
data/lib/pdf/reader/glyph_hash.rb +28 -13
data/lib/pdf/reader/glyphlist-zapfdingbats.txt +245 -0
data/lib/pdf/reader/key_builder_v5.rb +138 -0
data/lib/pdf/reader/lzw.rb +28 -11
data/lib/pdf/reader/no_text_filter.rb +14 -0
data/lib/pdf/reader/null_security_handler.rb +1 -4
data/lib/pdf/reader/object_cache.rb +1 -0
data/lib/pdf/reader/object_hash.rb +292 -63
data/lib/pdf/reader/object_stream.rb +3 -2
data/lib/pdf/reader/overlapping_runs_filter.rb +72 -0
data/lib/pdf/reader/page.rb +143 -16
data/lib/pdf/reader/page_layout.rb +43 -39
data/lib/pdf/reader/page_state.rb +26 -17
data/lib/pdf/reader/page_text_receiver.rb +74 -4
data/lib/pdf/reader/pages_strategy.rb +1 -0
data/lib/pdf/reader/parser.rb +34 -14
data/lib/pdf/reader/point.rb +25 -0
data/lib/pdf/reader/print_receiver.rb +1 -0
data/lib/pdf/reader/rc4_security_handler.rb +38 -0
data/lib/pdf/reader/rectangle.rb +113 -0
data/lib/pdf/reader/reference.rb +3 -1
data/lib/pdf/reader/register_receiver.rb +1 -0
data/lib/pdf/reader/{resource_methods.rb → resources.rb} +17 -9
data/lib/pdf/reader/security_handler_factory.rb +79 -0
data/lib/pdf/reader/{standard_security_handler.rb → standard_key_builder.rb} +23 -94
data/lib/pdf/reader/stream.rb +3 -2
data/lib/pdf/reader/synchronized_cache.rb +1 -0
data/lib/pdf/reader/text_run.rb +40 -5
data/lib/pdf/reader/token.rb +1 -0
data/lib/pdf/reader/transformation_matrix.rb +8 -7
data/lib/pdf/reader/type_check.rb +98 -0
data/lib/pdf/reader/unimplemented_security_handler.rb +1 -0
data/lib/pdf/reader/validating_receiver.rb +262 -0
data/lib/pdf/reader/width_calculator/built_in.rb +27 -17
data/lib/pdf/reader/width_calculator/composite.rb +6 -1
data/lib/pdf/reader/width_calculator/true_type.rb +10 -11
data/lib/pdf/reader/width_calculator/type_one_or_three.rb +6 -4
data/lib/pdf/reader/width_calculator/type_zero.rb +6 -2
data/lib/pdf/reader/width_calculator.rb +1 -0
data/lib/pdf/reader/xref.rb +37 -11
data/lib/pdf/reader/zero_width_runs_filter.rb +13 -0
data/lib/pdf/reader.rb +49 -24
data/lib/pdf-reader.rb +1 -0
data/rbi/pdf-reader.rbi +2048 -0
metadata +39 -23
data/lib/pdf/hash.rb +0 -20
data/lib/pdf/reader/orientation_detector.rb +0 -34
data/lib/pdf/reader/standard_security_handler_v5.rb +0 -91

data/lib/pdf/reader/buffer.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: ASCII-8BIT
+# typed: strict
 # frozen_string_literal: true
 ################################################################################
@@ -48,6 +49,18 @@ class PDF::Reader
     ID = "ID"
     FWD_SLASH = "/"
     NULL_BYTE = "\x00"
+    CR = "\r"
+    LF = "\n"
+    CRLF = "\r\n"
+    WHITE_SPACE = [LF, CR, ' ']
+    # Quite a few PDFs have trailing junk.
+    # This can be several k of nuls in some cases
+    # Allow for this here
+    TRAILING_BYTECOUNT = 5000
+    # must match whole tokens
+    DIGITS_ONLY = %r{\A\d+\z}
     attr_reader :pos
@@ -55,7 +68,7 @@ class PDF::Reader
     #
     # Params:
     #
-    #   io - an IO stream or string with the raw data to tokenise
+    #   io - an IO stream (usually a StringIO) with the raw data to tokenise
     #
     # options:
     #
@@ -86,9 +99,12 @@ class PDF::Reader
     #
     # options:
     #
-    #   :skip_eol - if true, the IO stream is advanced past a CRLF or LF that
-    #               is sitting under the io cursor.
-    #
+    #   :skip_eol - if true, the IO stream is advanced past a CRLF, CR or LF
+    #               that is sitting under the io cursor.
+    #   Note:
+    #   Skipping a bare CR is not spec-compliant.
+    #   This is because the data may start with LF.
+    #   However we check for CRLF first, so the ambiguity is avoided.
     def read(bytes, opts = {})
       reset_pos
@@ -97,9 +113,9 @@ class PDF::Reader
         str = @io.read(2)
         if str.nil?
           return nil
-        elsif str == "\r\n"
+        elsif str == CRLF # This MUST be done before checking for CR alone
           # do nothing
-        elsif str[0,1] == "\n"
+        elsif str[0, 1] == LF || str[0, 1] == CR # LF or CR alone
           @io.seek(-1, IO::SEEK_CUR)
         else
           @io.seek(-2, IO::SEEK_CUR)
@@ -127,8 +143,10 @@ class PDF::Reader
     #
     def find_first_xref_offset
       check_size_is_non_zero
-      @io.seek(-1024, IO::SEEK_END) rescue @io.seek(0)
-      data = @io.read(1024)
+      @io.seek(-TRAILING_BYTECOUNT, IO::SEEK_END) rescue @io.seek(0)
+      data = @io.read(TRAILING_BYTECOUNT)
+      raise MalformedPDFError, "PDF does not contain EOF marker" if data.nil?
       # the PDF 1.7 spec (section #3.4) says that EOL markers can be either \r, \n, or both.
       lines = data.split(/[\n\r]+/).reverse
@@ -136,7 +154,12 @@ class PDF::Reader
       raise MalformedPDFError, "PDF does not contain EOF marker" if eof_index.nil?
       raise MalformedPDFError, "PDF EOF marker does not follow offset" if eof_index >= lines.size-1
-      lines[eof_index+1].to_i
+      offset = lines[eof_index+1].to_i
+      # a byte offset < 0 doesn't make much sense. This is unlikely to happen, but in theory some
+      # corrupted PDFs might have a line that looks like a negative int preceding the `%%EOF`
+      raise MalformedPDFError, "invalid xref offset" if offset < 0
+      offset
     end
     private
@@ -217,45 +240,73 @@ class PDF::Reader
       return if @tokens.size < 3
       return if @tokens[2] != "R"
-      if @tokens[0].match(/\d+/) && @tokens[1].match(/\d+/)
-        @tokens[0] = PDF::Reader::Reference.new(@tokens[0].to_i, @tokens[1].to_i)
-        @tokens[1] = nil
-        @tokens[2] = nil
-        @tokens.compact!
+      token_one = @tokens[0]
+      token_two = @tokens[1]
+      if token_one.is_a?(String) && token_two.is_a?(String) && token_one.match(DIGITS_ONLY) && token_two.match(DIGITS_ONLY)
+        @tokens[0] = PDF::Reader::Reference.new(token_one.to_i, token_two.to_i)
+        @tokens.delete_at(2)
+        @tokens.delete_at(1)
       end
     end
+    # Extract data between ID and EI
+    # If the EI follows white-space the space is dropped from the data
+    # The EI must followed by white-space or end of buffer
+    # This is to reduce the chance of accidentally matching an embedded EI
     def prepare_inline_token
-      str = "".dup
-      buffer = []
-      until buffer[0] =~ /\s|\0/ && buffer[1, 2] == ["E", "I"]
+      idstart = @io.pos
+      prevchr = ''
+      eisize = 0 # how many chars in the end marker
+      seeking = 'E' # what are we looking for now?
+      loop do
         chr = @io.read(1)
-        buffer << chr
-        if buffer.length > 3
-          str << buffer.shift
+        break if chr.nil?
+        case seeking
+        when 'E'
+          if chr == 'E'
+            seeking = 'I'
+            if WHITE_SPACE.include? prevchr
+              eisize = 3 # include whitespace in delimiter, i.e. drop from data
+            else # assume the EI immediately follows the data
+              eisize = 2 # leave prevchr in data
+            end
+          end
+        when 'I'
+          if chr == 'I'
+            seeking = ''
+          else
+            seeking = 'E'
+          end
+        when ''
+          if WHITE_SPACE.include? chr
+            eisize += 1 # Drop trailer
+            break
+          else
+            seeking = 'E'
+          end
         end
+        prevchr = chr.is_a?(String) ? chr : ''
       end
-      str << NULL_BYTE if buffer.first == NULL_BYTE
-      @tokens << string_token(str)
-      @io.seek(-3, IO::SEEK_CUR) unless chr.nil?
+      unless seeking == ''
+        raise MalformedPDFError, "EI terminator not found"
+      end
+      eiend = @io.pos
+      @io.seek(idstart, IO::SEEK_SET)
+      str = @io.read(eiend - eisize - idstart) # get the ID content
+      @tokens << str.freeze if str
     end
     # if we're currently inside a hex string, read hex nibbles until
     # we find a closing >
     #
     def prepare_hex_token
+      finished = :false
       str = "".dup
-      finished = false
-      while !finished
+      until finished == :true
         byte = @io.getbyte
         if byte.nil?
-          finished = true # unbalanced params
+          finished = :true # unbalanced params
         elsif (48..57).include?(byte) || (65..90).include?(byte) || (97..122).include?(byte)
           str << byte
         elsif byte <= 32
@@ -264,7 +315,7 @@ class PDF::Reader
           @tokens << str if str.size > 0
           @tokens << ">" if byte != 0x3E # '>'
           @tokens << byte.chr
-          finished = true
+          finished = :true
         end
       end
     end
@@ -311,14 +362,17 @@ class PDF::Reader
     def prepare_regular_token
       tok = "".dup
-      while byte = @io.getbyte
+      loop do
+        byte = @io.getbyte
         case byte
+        when nil
+          break
         when 0x25
           # comment, ignore everything until the next EOL char
-          done = false
-          while !done
-            byte = @io.getbyte
-            done = true if byte.nil? || byte == 0x0A || byte == 0x0D
+          loop do
+            commentbyte = @io.getbyte
+            break if commentbyte.nil? || commentbyte == 0x0A || commentbyte == 0x0D
           end
         when *TOKEN_WHITESPACE
           # white space, token finished
@@ -388,15 +442,5 @@ class PDF::Reader
       byte
     end
-    # for a handful of tokens we want to tell the parser how to convert them
-    # into higher level tokens. This methods adds a to_token() method
-    # to tokens that should remain as strings.
-    #
-    def string_token(token)
-      def token.to_token
-        to_s
-      end
-      token
-    end
   end
 end

data/lib/pdf/reader/cid_widths.rb CHANGED Viewed

@@ -1,8 +1,7 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
-#
 require 'forwardable'
 class PDF::Reader
@@ -32,10 +31,10 @@ class PDF::Reader
         params << array.shift
         if params.size == 2 && params.last.is_a?(Array)
-          widths.merge! parse_first_form(params.first, params.last)
+          widths.merge! parse_first_form(params.first.to_i, Array(params.last))
           params = []
         elsif params.size == 3
-          widths.merge! parse_second_form(params[0], params[1], params[2])
+          widths.merge! parse_second_form(params[0].to_i, params[1].to_i, params[2].to_i)
           params = []
         end
       end
@@ -53,6 +52,10 @@ class PDF::Reader
     # this is the form 10 20 123 where all index between 10 and 20 have width 123
     def parse_second_form(first, final, width)
+      if first > final
+        raise MalformedPDFError, "CidWidths: #{first} must be less than #{final}"
+      end
       (first..final).inject({}) { |accum, index|
         accum[index] = width
         accum

data/lib/pdf/reader/cmap.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
 ################################################################################
@@ -32,16 +33,17 @@ class PDF::Reader
   # extracting various useful information.
   #
   class CMap # :nodoc:
     CMAP_KEYWORDS = {
-      "begincodespacerange" => 1,
-      "endcodespacerange" => 1,
-      "beginbfchar" => 1,
-      "endbfchar" => 1,
-      "beginbfrange" => 1,
-      "endbfrange" => 1,
-      "begin" => 1,
-      "begincmap" => 1,
-      "def" => 1
+      "begincodespacerange" => :noop,
+      "endcodespacerange" => :noop,
+      "beginbfchar" => :noop,
+      "endbfchar" => :noop,
+      "beginbfrange" => :noop,
+      "endbfrange" => :noop,
+      "begin" => :noop,
+      "begincmap" => :noop,
+      "def" => :noop
     }
     attr_reader :map
@@ -51,30 +53,6 @@ class PDF::Reader
       process_data(data)
     end
-    def process_data(data)
-      parser = build_parser(data)
-      mode = nil
-      instructions = []
-      while token = parser.parse_token(CMAP_KEYWORDS)
-        if token == "beginbfchar"
-          mode = :char
-        elsif token == "endbfchar"
-          process_bfchar_instructions(instructions)
-          instructions = []
-          mode = nil
-        elsif token == "beginbfrange"
-          mode = :range
-        elsif token == "endbfrange"
-          process_bfrange_instructions(instructions)
-          instructions = []
-          mode = nil
-        elsif mode == :char || mode == :range
-          instructions << token
-        end
-      end
-    end
     def size
       @map.size
     end
@@ -84,44 +62,84 @@ class PDF::Reader
     # Returns an array of Integers.
     #
     def decode(c)
-      # TODO: implement the conversion
-      return c unless Integer === c
-      @map[c]
+      @map.fetch(c, [])
     end
     private
+    def process_data(data, initial_mode = :none)
+      parser = build_parser(data)
+      mode = initial_mode
+      instructions = []
+      while token = parser.parse_token(CMAP_KEYWORDS)
+        if token.is_a?(String) || token.is_a?(Array)
+          if token == "beginbfchar"
+            mode = :char
+          elsif token == "endbfchar"
+            process_bfchar_instructions(instructions)
+            instructions = []
+            mode = :none
+          elsif token == "beginbfrange"
+            mode = :range
+          elsif token == "endbfrange"
+            process_bfrange_instructions(instructions)
+            instructions = []
+            mode = :none
+          elsif mode == :char
+            instructions << token.to_s
+          elsif mode == :range
+            instructions << token
+          end
+        end
+      end
+    end
     def build_parser(instructions)
       buffer = Buffer.new(StringIO.new(instructions))
       Parser.new(buffer)
     end
+    # The following includes some manual decoding of UTF-16BE strings into unicode codepoints. In
+    # theory we could replace all the UTF-16 code with something based on Ruby's encoding support:
+    #
+    #    str.dup.force_encoding("utf-16be").encode!("utf-8").unpack("U*")
+    #
+    # However, some cmaps contain broken surrogate pairs and the ruby encoding support raises an
+    # exception when we try converting broken UTF-16 to UTF-8
+    #
     def str_to_int(str)
-      return nil if str.nil? || str.size == 0
-      unpacked_string = if str.size == 1 # UTF-8
+      unpacked_string = if str.bytesize == 1 # UTF-8
         str.unpack("C*")
       else # UTF-16
          str.unpack("n*")
       end
-      if unpacked_string.size == 1
-        unpacked_string
-      elsif unpacked_string.size == 2 && unpacked_string[0] > 0xD800 && unpacked_string[0] < 0xDBFF
-        # this is a Unicode UTF-16 "Surrogate Pair" see Unicode Spec. Chapter 3.7
-        # lets convert to a UTF-32. (the high bit is between 0xD800-0xDBFF, the
-        # low bit is between 0xDC00-0xDFFF) for example: U+1D44E (U+D835 U+DC4E)
-        [(unpacked_string[0] - 0xD800) * 0x400 + (unpacked_string[1] - 0xDC00) + 0x10000]
-      else
-        # it is a bad idea to just return the first 16 bits, as this doesn't allow
-        # for ligatures for example fi (U+0066 U+0069)
-        unpacked_string
+      result = []
+      while unpacked_string.any? do
+        if unpacked_string.size >= 2 &&
+            unpacked_string.first.to_i > 0xD800 &&
+            unpacked_string.first.to_i < 0xDBFF
+          # this is a Unicode UTF-16 "Surrogate Pair" see Unicode Spec. Chapter 3.7
+          # lets convert to a UTF-32. (the high bit is between 0xD800-0xDBFF, the
+          # low bit is between 0xDC00-0xDFFF) for example: U+1D44E (U+D835 U+DC4E)
+          point_one = unpacked_string.shift.to_i
+          point_two = unpacked_string.shift.to_i
+          result << (point_one - 0xD800) * 0x400 + (point_two - 0xDC00) + 0x10000
+        else
+          result << unpacked_string.shift
+        end
       end
+      result
     end
     def process_bfchar_instructions(instructions)
       instructions.each_slice(2) do |one, two|
-        find    = str_to_int(one)
-        replace = str_to_int(two)
-        @map[find.first] = replace
+        find    = str_to_int(one.to_s)
+        replace = str_to_int(two.to_s)
+        if find.any? && replace.any?
+          @map[find.first.to_i] = replace
+        end
       end
     end
@@ -132,30 +150,36 @@ class PDF::Reader
         elsif start.kind_of?(String) && finish.kind_of?(String) && to.kind_of?(Array)
           bfrange_type_two(start, finish, to)
         else
-          raise "invalid bfrange section"
+          raise MalformedPDFError, "invalid bfrange section"
         end
       end
     end
     def bfrange_type_one(start_code, end_code, dst)
-      start_code = str_to_int(start_code)[0]
-      end_code   = str_to_int(end_code)[0]
+      start_code = str_to_int(start_code).first
+      end_code   = str_to_int(end_code).first
       dst        = str_to_int(dst)
+      return if start_code.nil? || end_code.nil?
       # add all values in the range to our mapping
       (start_code..end_code).each_with_index do |val, idx|
-        @map[val] = dst.length == 1 ? [dst[0] + idx] : [dst[0], dst[1] + 1]
+        @map[val] = dst.length == 1 ? [dst[0].to_i + idx] : [dst[0].to_i, dst[1].to_i + 1]
       end
     end
     def bfrange_type_two(start_code, end_code, dst)
-      start_code = str_to_int(start_code)[0]
-      end_code   = str_to_int(end_code)[0]
+      start_code = str_to_int(start_code).first
+      end_code   = str_to_int(end_code).first
+      return if start_code.nil? || end_code.nil?
       from_range = (start_code..end_code)
       # add all values in the range to our mapping
       from_range.each_with_index do |val, idx|
-        @map[val] = str_to_int(dst[idx])
+        dst_char = dst[idx]
+        @map[val.to_i] = str_to_int(dst_char) if dst_char
       end
     end
   end

data/lib/pdf/reader/encoding.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
 ################################################################################
@@ -40,20 +41,22 @@ class PDF::Reader
       @mapping  = default_mapping # maps from character codes to Unicode codepoints
       @string_cache  = {} # maps from character codes to UTF-8 strings.
-      if enc.kind_of?(Hash)
-        self.differences = enc[:Differences] if enc[:Differences]
-        enc = enc[:Encoding] || enc[:BaseEncoding]
-      elsif enc != nil
-        enc = enc.to_sym
+      @enc_name = if enc.kind_of?(Hash)
+        enc[:Encoding] || enc[:BaseEncoding]
+      elsif enc && enc.respond_to?(:to_sym)
+        enc.to_sym
       else
-        enc = nil
+        :StandardEncoding
       end
-      @enc_name = enc
-      @unpack   = get_unpack(enc)
-      @map_file = get_mapping_file(enc)
+      @unpack   = get_unpack(@enc_name)
+      @map_file = get_mapping_file(@enc_name)
       load_mapping(@map_file) if @map_file
+      if enc.is_a?(Hash) && enc[:Differences]
+        self.differences = enc[:Differences]
+      end
     end
     # set the differences table for this encoding. should be an array in the following format:
@@ -66,16 +69,16 @@ class PDF::Reader
     #
     #   [25, :A, :B]
     def differences=(diff)
-      raise ArgumentError, "diff must be an array" unless diff.kind_of?(Array)
+      PDF::Reader::Error.validate_type(diff, "diff", Array)
       @differences = {}
       byte = 0
       diff.each do |val|
         if val.kind_of?(Numeric)
           byte = val.to_i
-        else
+        elsif codepoint = glyphlist.name_to_unicode(val)
           @differences[byte] = val
-          @mapping[byte] = glyphlist.name_to_unicode(val)
+          @mapping[byte] = codepoint
           byte += 1
         end
       end
@@ -164,7 +167,7 @@ class PDF::Reader
     end
     def convert_to_utf8(str)
-      ret = str.unpack(unpack).map! { |c| @mapping[c] || c }.pack("U*")
+      ret = str.unpack(unpack).map! { |c| @mapping[c.to_i] || c }.pack("U*")
       ret.force_encoding("UTF-8")
       ret
     end
@@ -206,7 +209,7 @@ class PDF::Reader
     def load_mapping(file)
       File.open(file, "r:BINARY") do |f|
         f.each do |l|
-          _m, single_byte, unicode = *l.match(/([0-9A-Za-z]+);([0-9A-F]{4})/)
+          _m, single_byte, unicode = *l.match(/\A([0-9A-Za-z]+);([0-9A-F]{4})/)
           @mapping["0x#{single_byte}".hex] = "0x#{unicode}".hex if single_byte
         end
       end

data/lib/pdf/reader/error.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
 ################################################################################
@@ -33,19 +34,30 @@ class PDF::Reader
     def self.str_assert(lvalue, rvalue, chars=nil)
       raise MalformedPDFError, "PDF malformed, expected string but found #{lvalue.class} instead" if chars and !lvalue.kind_of?(String)
       lvalue = lvalue[0,chars] if chars
-      raise MalformedPDFError, "PDF malformed, expected '#{rvalue}' but found #{lvalue} instead"  if lvalue != rvalue
+      raise MalformedPDFError, "PDF malformed, expected '#{rvalue}' but found '#{lvalue}' instead"  if lvalue != rvalue
     end
     ################################################################################
     def self.str_assert_not(lvalue, rvalue, chars=nil)
       raise MalformedPDFError, "PDF malformed, expected string but found #{lvalue.class} instead" if chars and !lvalue.kind_of?(String)
       lvalue = lvalue[0,chars] if chars
-      raise MalformedPDFError, "PDF malformed, expected '#{rvalue}' but found #{lvalue} instead"  if lvalue == rvalue
+      raise MalformedPDFError, "PDF malformed, expected '#{rvalue}' but found '#{lvalue}' instead"  if lvalue == rvalue
     end
     ################################################################################
     def self.assert_equal(lvalue, rvalue)
-      raise MalformedPDFError, "PDF malformed, expected #{rvalue} but found #{lvalue} instead" if lvalue != rvalue
+      raise MalformedPDFError, "PDF malformed, expected '#{rvalue}' but found '#{lvalue}' instead" if lvalue != rvalue
     end
     ################################################################################
+    def self.validate_type(object, name, klass)
+      raise ArgumentError, "#{name} (#{object}) must be a #{klass}" unless object.is_a?(klass)
+    end
+    ################################################################################
+    def self.validate_type_as_malformed(object, name, klass)
+      raise MalformedPDFError, "#{name} (#{object}) must be a #{klass}" unless object.is_a?(klass)
+    end
+    ################################################################################
+    def self.validate_not_nil(object, name)
+      raise ArgumentError, "#{object} must not be nil" if object.nil?
+    end
   end
   ################################################################################

data/lib/pdf/reader/filter/ascii85.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
 require 'ascii85'
@@ -7,6 +8,7 @@ class PDF::Reader
   module Filter # :nodoc:
     # implementation of the Ascii85 filter
     class Ascii85
       def initialize(options = {})
         @options = options
       end
@@ -17,7 +19,11 @@ class PDF::Reader
       #
       def filter(data)
         data = "<~#{data}" unless data.to_s[0,2] == "<~"
-        ::Ascii85::decode(data)
+        if defined?(::Ascii85Native)
+          ::Ascii85Native::decode(data)
+        else
+          ::Ascii85::decode(data)
+        end
       rescue Exception => e
         # Oops, there was a problem decoding the stream
         raise MalformedPDFError,

data/lib/pdf/reader/filter/ascii_hex.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # coding: utf-8
+# typed: strict
 # frozen_string_literal: true
 #
@@ -6,6 +7,7 @@ class PDF::Reader
   module Filter # :nodoc:
     # implementation of the AsciiHex stream filter
     class AsciiHex
       def initialize(options = {})
         @options = options
       end
@@ -16,9 +18,12 @@ class PDF::Reader
       def filter(data)
         data.chop! if data[-1,1] == ">"
         data = data[1,data.size] if data[0,1] == "<"
+        return "" if data.nil?
         data.gsub!(/[^A-Fa-f0-9]/,"")
         data << "0" if data.size % 2 == 1
-        data.scan(/.{2}/).map { |s| s.hex.chr }.join("")
+        data.scan(/.{2}/).flatten.map { |s| s.hex.chr }.join("")
       rescue Exception => e
         # Oops, there was a problem decoding the stream
         raise MalformedPDFError,