RubyGems - hexapdf - Versions diffs - 0.15.4 → 0.15.8 - Mend

hexapdf 0.15.4 → 0.15.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +36 -0
data/lib/hexapdf/cli/command.rb +2 -2
data/lib/hexapdf/parser.rb +19 -7
data/lib/hexapdf/tokenizer.rb +15 -6
data/lib/hexapdf/version.rb +1 -1
data/test/hexapdf/common_tokenizer_tests.rb +21 -2
data/test/hexapdf/test_parser.rb +19 -2
data/test/hexapdf/test_writer.rb +2 -2
metadata +2 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 6901d1281fa7f0585e2fe02b27985c9b7ff26770015902566c72ea62f5398e10
-  data.tar.gz: 4b1a82d17d4d1144b47dbb713552bb5e977896b94210a54c7b83871399d393ac
+  metadata.gz: 4953ab56f7c03c62e4f4e2ef1aa51a8a58f98c3d24725eb86dd6bc13419bd2d2
+  data.tar.gz: c4ac38e280f646eecf512481570ddc8670b48c9ac32601f55b24748f4044344b
 SHA512:
-  metadata.gz: 1d4acb6e9f867195e998b3fd900102013a8d4b74c576f3c3243225a515bbcf2be8b62852db95cbcd9213ec06334b174fba4db406dfb8e228083d9a527eb8a5a1
-  data.tar.gz: 3306a678655f59c35b3349cd247606ca7e45a34e033dd9b9b3bad33c20a3fda95ba07bff88acdb7c5666c23b1ab63d293963e68db7e12371c56106645df7d9bb
+  metadata.gz: 529f8f88d9553f300b842838c1f00e8bed3e05adecfe4478f81d41fcb6431fce888f56b76b2747a65a2935cbb76a6792dce2b1f480dcb120634e1932e461c883
+  data.tar.gz: 9e71874d7901145045fab5791ca09b3ec9cc8f9a9243366b0329cb2570c58408d4595ee37e995a22ce2c099127bc6bdc732e5d3562bde834be2fc57aa3f35b8a

data/CHANGELOG.md CHANGED Viewed

@@ -1,3 +1,39 @@
+## 0.15.8 - 2021-08-16
+### Fixed
+* Regression when using `-v` with the hexapdf command line tool
+## 0.15.7 - 2021-07-17
+### Fixed
+* Infinite loop while parsing PDF array due to missing closing bracket
+* Handling of invalid files with missing or corrupted trailer dictionary
+## 0.15.6 - 2021-07-16
+### Fixed
+* Handling of indirect objects with invalid values which are now treated as null
+  objects
+## 0.15.5 - 2021-07-06
+### Changed
+* Refactored [HexaPDF::Tokenizer#next_xref_entry] and changed yielded value
+### Fixed
+* Handling of invalid cross-reference stream entries that ends with the sequence
+  `\r\r`
 ## 0.15.4 - 2021-05-27
 ### Fixed

data/lib/hexapdf/cli/command.rb CHANGED Viewed

@@ -50,7 +50,7 @@ module HexaPDF
       module Extensions #:nodoc:
         def help_banner #:nodoc:
           "hexapdf #{HexaPDF::VERSION} - Versatile PDF Manipulation Tool\n" \
-            "Copyright (c) 2014-2017 Thomas Leitner; licensed under the AGPLv3\n\n" \
+            "Copyright (c) 2014-2021 Thomas Leitner; licensed under the AGPLv3\n\n" \
             "#{format(usage, indent: 7)}\n\n"
         end
       end
@@ -119,7 +119,7 @@ module HexaPDF
       # Writes the document to the given file or does nothing if +out_file+ is +nil+.
       def write_document(doc, out_file, incremental: false)
         if out_file
-          doc.validate(auto_correct: true) do |object, msg, correctable|
+          doc.validate(auto_correct: true) do |msg, correctable, object|
             if command_parser.strict && !correctable
               raise "Validation error for object (#{object.oid},#{object.gen}): #{msg}"
             elsif command_parser.verbosity_info?

data/lib/hexapdf/parser.rb CHANGED Viewed

@@ -125,11 +125,14 @@ module HexaPDF
         begin
           object = @tokenizer.next_object
         rescue MalformedPDFError
-          # Handle often found invalid indirect object with missing whitespace after number
-          maybe_raise("Invalid object value after 'obj'", pos: @tokenizer.pos,
-                      force: !(tok.kind_of?(Tokenizer::Token) && tok =~ /\A\d+endobj\z/))
-          object = tok.to_i
-          @tokenizer.pos -= 6
+          if tok.kind_of?(Tokenizer::Token) && tok =~ /\A\d+endobj\z/
+            # Handle often found invalid indirect object with missing whitespace after number
+            maybe_raise("Missing whitespace after number'", pos: @tokenizer.pos)
+            object = tok.to_i
+            @tokenizer.pos -= 6
+          else
+            maybe_raise("Invalid value after '#{oid} #{gen} obj', treating as null", pos: @tokenizer.pos)
+          end
         end
       end
@@ -263,9 +266,9 @@ module HexaPDF
         @tokenizer.skip_whitespace
         start.upto(start + number_of_entries - 1) do |oid|
-          pos, gen, type = @tokenizer.next_xref_entry do |matched_size|
+          pos, gen, type = @tokenizer.next_xref_entry do |recoverable|
             maybe_raise("Invalid cross-reference entry", pos: @tokenizer.pos,
-                        force: !matched_size)
+                        force: !recoverable)
           end
           if xref.entry?(oid)
             next
@@ -444,6 +447,15 @@ module HexaPDF
       if !trailer || trailer.empty?
         _, trailer = load_revision(startxref_offset) rescue nil
+        unless trailer
+          xref.each do |_oid, _gen, xref_entry|
+            obj, * = parse_indirect_object(xref_entry.pos) rescue nil
+            if obj.kind_of?(Hash) && obj[:Type] == :Catalog
+              trailer = {Root: HexaPDF::Reference.new(xref_entry.oid, xref_entry.gen)}
+              break
+            end
+          end
+        end
         unless trailer
           @in_reconstruct_revision = false
           raise_malformed("Could not reconstruct malformed PDF because trailer was not found", pos: 0)

data/lib/hexapdf/tokenizer.rb CHANGED Viewed

@@ -55,6 +55,9 @@ module HexaPDF
     # This object is returned when there are no more tokens to read.
     NO_MORE_TOKENS = ::Object.new
+    def NO_MORE_TOKENS.to_s
+      "EOS - no more tokens"
+    end
     # Characters defined as whitespace.
     #
@@ -225,13 +228,14 @@ module HexaPDF
     # Reads the cross-reference subsection entry at the current position and advances the scan
     # pointer.
     #
-    # If a possible problem is detected, yields to caller.
+    # If a problem is detected, yields to caller where the argument +recoverable+ is truthy if the
+    # problem is recoverable.
     #
     # See: PDF1.7 7.5.4
-    def next_xref_entry #:yield: matched_size
+    def next_xref_entry #:yield: recoverable
       prepare_string_scanner(20)
-      unless @ss.skip(/(\d{10}) (\d{5}) ([nf])(?: \r| \n|\r\n|\r|\n)/) && @ss.matched_size == 20
-        yield(@ss.matched_size)
+      if !@ss.skip(/(\d{10}) (\d{5}) ([nf])(?: \r| \n|\r\n|(\r\r|\r|\n))/) || @ss[4]
+        yield(@ss[4])
       end
       [@ss[1].to_i, @ss[2].to_i, @ss[3]]
     end
@@ -383,7 +387,11 @@ module HexaPDF
       result = []
       while true
         obj = next_object(allow_end_array_token: true)
-        break if obj.equal?(TOKEN_ARRAY_END)
+        if obj.equal?(TOKEN_ARRAY_END)
+          break
+        elsif obj.equal?(NO_MORE_TOKENS)
+          raise HexaPDF::MalformedPDFError.new("Unclosed array found", pos: pos)
+        end
         result << obj
       end
       result
@@ -402,7 +410,8 @@ module HexaPDF
         key = next_token
         break if key.equal?(TOKEN_DICT_END)
         unless key.kind_of?(Symbol)
-          raise HexaPDF::MalformedPDFError.new("Dictionary keys must be PDF name objects", pos: pos)
+          raise HexaPDF::MalformedPDFError.new("Dictionary keys must be PDF name objects, " \
+                                               "found '#{key}'", pos: pos)
         end
         val = next_object

data/lib/hexapdf/version.rb CHANGED Viewed

@@ -37,6 +37,6 @@
 module HexaPDF
   # The version of HexaPDF.
-  VERSION = '0.15.4'
+  VERSION = '0.15.8'
 end

data/test/hexapdf/common_tokenizer_tests.rb CHANGED Viewed

@@ -161,6 +161,21 @@ module CommonTokenizerTests
     assert_raises(HexaPDF::MalformedPDFError) { @tokenizer.next_object }
   end
+  it "next_object: fails for an array without closing bracket, encountering EOS" do
+    create_tokenizer("[1 2")
+    exception = assert_raises(HexaPDF::MalformedPDFError) { @tokenizer.next_object }
+    assert_match(/Unclosed array found/, exception.message)
+  end
+  it "next_object: fails for a dictionary without closing bracket, encountering EOS" do
+    create_tokenizer("<</Name 5")
+    exception = assert_raises(HexaPDF::MalformedPDFError) { @tokenizer.next_object }
+    assert_match(/must be PDF name objects.*EOS/, exception.message)
+    create_tokenizer("<</Name 5 /Other")
+    exception = assert_raises(HexaPDF::MalformedPDFError) { @tokenizer.next_object }
+    assert_match(/must be PDF name objects.*EOS/, exception.message)
+  end
   it "returns the correct position on operations" do
     create_tokenizer("hallo du" << " " * 50000 << "hallo du")
     @tokenizer.next_token
@@ -210,8 +225,12 @@ module CommonTokenizerTests
   it "next_xref_entry: fails on invalidly formatted entries" do
     create_tokenizer("0000000001 00001 g \n")
-    assert_raises(RuntimeError) { @tokenizer.next_xref_entry { raise } }
+    assert_raises(RuntimeError) { @tokenizer.next_xref_entry {|recoverable| refute(recoverable); raise } }
     create_tokenizer("0000000001 00001 n\n")
-    assert_raises(RuntimeError) { @tokenizer.next_xref_entry { raise } }
+    assert_raises(RuntimeError) { @tokenizer.next_xref_entry {|recoverable| assert(recoverable); raise } }
+    create_tokenizer("0000000001 00001 n\r")
+    assert_raises(RuntimeError) { @tokenizer.next_xref_entry {|recoverable| assert(recoverable); raise } }
+    create_tokenizer("0000000001 00001 n\r\r")
+    assert_raises(RuntimeError) { @tokenizer.next_xref_entry {|recoverable| assert(recoverable); raise } }
   end
 end

data/test/hexapdf/test_parser.rb CHANGED Viewed

@@ -107,6 +107,12 @@ describe HexaPDF::Parser do
       assert_equal(749, object)
     end
+    it "treats indirect objects with invalid values as null objects" do
+      create_parser("1 0 obj <</test ( /other (end)>> endobj")
+      object, * =  @parser.parse_indirect_object
+      assert_nil(object)
+    end
     it "recovers from an invalid stream length value" do
       create_parser("1 0 obj<</Length 4>> stream\n12endstream endobj")
       obj, _, _, stream = @parser.parse_indirect_object
@@ -185,7 +191,13 @@ describe HexaPDF::Parser do
       it "fails for numbers followed by endobj without space" do
         create_parser("1 0 obj 749endobj")
         exp = assert_raises(HexaPDF::MalformedPDFError) { @parser.parse_indirect_object }
-        assert_match(/Invalid object value after 'obj'/, exp.message)
+        assert_match(/Missing whitespace after number/, exp.message)
+      end
+      it "fails for invalid values" do
+        create_parser("1 0 obj <</test ( /other (end)>> endobj")
+        exp = assert_raises(HexaPDF::MalformedPDFError) { @parser.parse_indirect_object }
+        assert_match(/Invalid value after '1 0 obj'/, exp.message)
       end
       it "fails if the stream length value is invalid" do
@@ -607,7 +619,12 @@ describe HexaPDF::Parser do
       assert_equal({Size: 1}, @parser.reconstructed_revision.trailer.value)
     end
-    it "fails if no trailer is found and the trailer specified at the startxref position is not valid" do
+    it "constructs a trailer with a /Root entry if no valid trailer was found" do
+      create_parser("1 0 obj\n<</Type /Catalog/Pages 2 0 R>>\nendobj\nxref trailer <</Size 1/Prev 5\n%%EOF")
+      assert_equal({Root: HexaPDF::Reference.new(1, 0)}, @parser.reconstructed_revision.trailer.value)
+    end
+    it "fails if no valid trailer is found and couldn't be constructed" do
       create_parser("1 0 obj\n5\nendobj\nquack trailer <</Size 1>>\nstartxref\n22\n%%EOF")
       assert_raises(HexaPDF::MalformedPDFError) { @parser.reconstructed_revision.trailer }
     end

data/test/hexapdf/test_writer.rb CHANGED Viewed

@@ -40,7 +40,7 @@ describe HexaPDF::Writer do
       219
       %%EOF
       3 0 obj
-      <</Producer(HexaPDF version 0.15.4)>>
+      <</Producer(HexaPDF version 0.15.8)>>
       endobj
       xref
       3 1
@@ -72,7 +72,7 @@ describe HexaPDF::Writer do
       141
       %%EOF
       6 0 obj
-      <</Producer(HexaPDF version 0.15.4)>>
+      <</Producer(HexaPDF version 0.15.8)>>
       endobj
       2 0 obj
       <</Length 10>>stream

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: hexapdf
 version: !ruby/object:Gem::Version
-  version: 0.15.4
+  version: 0.15.8
 platform: ruby
 authors:
 - Thomas Leitner
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2021-05-27 00:00:00.000000000 Z
+date: 2021-08-16 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: cmdparse