RubyGems - hexapdf - Versions diffs - 0.15.5 → 0.15.9 - Mend

hexapdf 0.15.5 → 0.15.9

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +31 -0
data/lib/hexapdf/cli/command.rb +1 -1
data/lib/hexapdf/parser.rb +18 -6
data/lib/hexapdf/tokenizer.rb +10 -2
data/lib/hexapdf/version.rb +1 -1
data/test/hexapdf/common_tokenizer_tests.rb +15 -0
data/test/hexapdf/test_parser.rb +28 -3
data/test/hexapdf/test_writer.rb +2 -2
metadata +2 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 6aa5d94e3b69f1d7b2b369d248664c2c4d96d13306c1fbb1cf0960412f129faf
-  data.tar.gz: f6e8ae5f61de78c41fecace64d0ad5d42f8c46032e6ac6550c01b2fb43109fe8
+  metadata.gz: 24d17dfd6c8dc9e3f7014e1ea769dede6f8cea81529bb201a8447f21873d3b25
+  data.tar.gz: 7165a2e11983731ba2597d2e4a824415abc96936d2b58f3fb737a4fed94dcf16
 SHA512:
-  metadata.gz: 49f3b3aee754308956df811f564d127269e8e1dbfc613bed39e42bd77303855b80fe11c2ade362cef174838b58188470b5604e2d2c930dcf7637e7600410ac15
-  data.tar.gz: 3a4d5555ae6f012176aebe0a29c36500ad20f385a342c27819f5db3a0e8c5e270c58526c8434b8c8d98c59b963721a51344e93bfc6d51f3eab4fc76cceeb830e
+  metadata.gz: 244332a4f024c90cf6344b462ed422a5f73b32d3a4d04d0dcdadc6e7ede2cd0724f7a3329fa3aad68c99e47f49a9dff66806d9b8b152b9551eaecd7365c807d4
+  data.tar.gz: 06c4b9fd5ecd8f045a37e85ce4a6539f52b48bb16fb685290bcc2a0210b5f2e66bcfa9b7efb1115c45dd1618de9421c479d7a66d84556d1b9c37b19b1f8b6075

data/CHANGELOG.md CHANGED Viewed

@@ -1,3 +1,34 @@
+## 0.15.9 - 2021-09-04
+### Fixed
+* Handling of files that contain stream length values that are indirect objects
+  not referring to a number
+## 0.15.8 - 2021-08-16
+### Fixed
+* Regression when using `-v` with the hexapdf command line tool
+## 0.15.7 - 2021-07-17
+### Fixed
+* Infinite loop while parsing PDF array due to missing closing bracket
+* Handling of invalid files with missing or corrupted trailer dictionary
+## 0.15.6 - 2021-07-16
+### Fixed
+* Handling of indirect objects with invalid values which are now treated as null
+  objects
 ## 0.15.5 - 2021-07-06
 ### Changed

data/lib/hexapdf/cli/command.rb CHANGED Viewed

@@ -119,7 +119,7 @@ module HexaPDF
       # Writes the document to the given file or does nothing if +out_file+ is +nil+.
       def write_document(doc, out_file, incremental: false)
         if out_file
-          doc.validate(auto_correct: true) do |object, msg, correctable|
+          doc.validate(auto_correct: true) do |msg, correctable, object|
             if command_parser.strict && !correctable
               raise "Validation error for object (#{object.oid},#{object.gen}): #{msg}"
             elsif command_parser.verbosity_info?

data/lib/hexapdf/parser.rb CHANGED Viewed

@@ -125,11 +125,14 @@ module HexaPDF
         begin
           object = @tokenizer.next_object
         rescue MalformedPDFError
-          # Handle often found invalid indirect object with missing whitespace after number
-          maybe_raise("Invalid object value after 'obj'", pos: @tokenizer.pos,
-                      force: !(tok.kind_of?(Tokenizer::Token) && tok =~ /\A\d+endobj\z/))
-          object = tok.to_i
-          @tokenizer.pos -= 6
+          if tok.kind_of?(Tokenizer::Token) && tok =~ /\A\d+endobj\z/
+            # Handle often found invalid indirect object with missing whitespace after number
+            maybe_raise("Missing whitespace after number'", pos: @tokenizer.pos)
+            object = tok.to_i
+            @tokenizer.pos -= 6
+          else
+            maybe_raise("Invalid value after '#{oid} #{gen} obj', treating as null", pos: @tokenizer.pos)
+          end
         end
       end
@@ -162,7 +165,7 @@ module HexaPDF
                  else
                    0
                  end
-        @tokenizer.pos = pos + length
+        @tokenizer.pos = pos + length rescue pos
         tok = @tokenizer.next_token
         unless tok.kind_of?(Tokenizer::Token) && tok == 'endstream'
@@ -444,6 +447,15 @@ module HexaPDF
       if !trailer || trailer.empty?
         _, trailer = load_revision(startxref_offset) rescue nil
+        unless trailer
+          xref.each do |_oid, _gen, xref_entry|
+            obj, * = parse_indirect_object(xref_entry.pos) rescue nil
+            if obj.kind_of?(Hash) && obj[:Type] == :Catalog
+              trailer = {Root: HexaPDF::Reference.new(xref_entry.oid, xref_entry.gen)}
+              break
+            end
+          end
+        end
         unless trailer
           @in_reconstruct_revision = false
           raise_malformed("Could not reconstruct malformed PDF because trailer was not found", pos: 0)

data/lib/hexapdf/tokenizer.rb CHANGED Viewed

@@ -55,6 +55,9 @@ module HexaPDF
     # This object is returned when there are no more tokens to read.
     NO_MORE_TOKENS = ::Object.new
+    def NO_MORE_TOKENS.to_s
+      "EOS - no more tokens"
+    end
     # Characters defined as whitespace.
     #
@@ -384,7 +387,11 @@ module HexaPDF
       result = []
       while true
         obj = next_object(allow_end_array_token: true)
-        break if obj.equal?(TOKEN_ARRAY_END)
+        if obj.equal?(TOKEN_ARRAY_END)
+          break
+        elsif obj.equal?(NO_MORE_TOKENS)
+          raise HexaPDF::MalformedPDFError.new("Unclosed array found", pos: pos)
+        end
         result << obj
       end
       result
@@ -403,7 +410,8 @@ module HexaPDF
         key = next_token
         break if key.equal?(TOKEN_DICT_END)
         unless key.kind_of?(Symbol)
-          raise HexaPDF::MalformedPDFError.new("Dictionary keys must be PDF name objects", pos: pos)
+          raise HexaPDF::MalformedPDFError.new("Dictionary keys must be PDF name objects, " \
+                                               "found '#{key}'", pos: pos)
         end
         val = next_object

data/lib/hexapdf/version.rb CHANGED Viewed

@@ -37,6 +37,6 @@
 module HexaPDF
   # The version of HexaPDF.
-  VERSION = '0.15.5'
+  VERSION = '0.15.9'
 end

data/test/hexapdf/common_tokenizer_tests.rb CHANGED Viewed

@@ -161,6 +161,21 @@ module CommonTokenizerTests
     assert_raises(HexaPDF::MalformedPDFError) { @tokenizer.next_object }
   end
+  it "next_object: fails for an array without closing bracket, encountering EOS" do
+    create_tokenizer("[1 2")
+    exception = assert_raises(HexaPDF::MalformedPDFError) { @tokenizer.next_object }
+    assert_match(/Unclosed array found/, exception.message)
+  end
+  it "next_object: fails for a dictionary without closing bracket, encountering EOS" do
+    create_tokenizer("<</Name 5")
+    exception = assert_raises(HexaPDF::MalformedPDFError) { @tokenizer.next_object }
+    assert_match(/must be PDF name objects.*EOS/, exception.message)
+    create_tokenizer("<</Name 5 /Other")
+    exception = assert_raises(HexaPDF::MalformedPDFError) { @tokenizer.next_object }
+    assert_match(/must be PDF name objects.*EOS/, exception.message)
+  end
   it "returns the correct position on operations" do
     create_tokenizer("hallo du" << " " * 50000 << "hallo du")
     @tokenizer.next_token

data/test/hexapdf/test_parser.rb CHANGED Viewed

@@ -107,13 +107,27 @@ describe HexaPDF::Parser do
       assert_equal(749, object)
     end
-    it "recovers from an invalid stream length value" do
+    it "treats indirect objects with invalid values as null objects" do
+      create_parser("1 0 obj <</test ( /other (end)>> endobj")
+      object, * =  @parser.parse_indirect_object
+      assert_nil(object)
+    end
+    it "recovers from a stream length value that doesn't reflect the correct length" do
       create_parser("1 0 obj<</Length 4>> stream\n12endstream endobj")
       obj, _, _, stream = @parser.parse_indirect_object
       assert_equal(2, obj[:Length])
       assert_equal('12', TestHelper.collector(stream.fiber))
     end
+    it "recovers from an invalid stream length value" do
+      create_parser("1 0 obj<</Length 2 0 R>> stream\n12endstream endobj")
+      @document.add([5], oid: 2)
+      obj, _, _, stream = @parser.parse_indirect_object
+      assert_equal(2, obj[:Length])
+      assert_equal('12', TestHelper.collector(stream.fiber))
+    end
     it "works even if the keyword endobj is missing or mangled" do
       create_parser("1 0 obj<</Length 4>>5")
       object, * = @parser.parse_indirect_object
@@ -185,7 +199,13 @@ describe HexaPDF::Parser do
       it "fails for numbers followed by endobj without space" do
         create_parser("1 0 obj 749endobj")
         exp = assert_raises(HexaPDF::MalformedPDFError) { @parser.parse_indirect_object }
-        assert_match(/Invalid object value after 'obj'/, exp.message)
+        assert_match(/Missing whitespace after number/, exp.message)
+      end
+      it "fails for invalid values" do
+        create_parser("1 0 obj <</test ( /other (end)>> endobj")
+        exp = assert_raises(HexaPDF::MalformedPDFError) { @parser.parse_indirect_object }
+        assert_match(/Invalid value after '1 0 obj'/, exp.message)
       end
       it "fails if the stream length value is invalid" do
@@ -607,7 +627,12 @@ describe HexaPDF::Parser do
       assert_equal({Size: 1}, @parser.reconstructed_revision.trailer.value)
     end
-    it "fails if no trailer is found and the trailer specified at the startxref position is not valid" do
+    it "constructs a trailer with a /Root entry if no valid trailer was found" do
+      create_parser("1 0 obj\n<</Type /Catalog/Pages 2 0 R>>\nendobj\nxref trailer <</Size 1/Prev 5\n%%EOF")
+      assert_equal({Root: HexaPDF::Reference.new(1, 0)}, @parser.reconstructed_revision.trailer.value)
+    end
+    it "fails if no valid trailer is found and couldn't be constructed" do
       create_parser("1 0 obj\n5\nendobj\nquack trailer <</Size 1>>\nstartxref\n22\n%%EOF")
       assert_raises(HexaPDF::MalformedPDFError) { @parser.reconstructed_revision.trailer }
     end

data/test/hexapdf/test_writer.rb CHANGED Viewed

@@ -40,7 +40,7 @@ describe HexaPDF::Writer do
       219
       %%EOF
       3 0 obj
-      <</Producer(HexaPDF version 0.15.5)>>
+      <</Producer(HexaPDF version 0.15.9)>>
       endobj
       xref
       3 1
@@ -72,7 +72,7 @@ describe HexaPDF::Writer do
       141
       %%EOF
       6 0 obj
-      <</Producer(HexaPDF version 0.15.5)>>
+      <</Producer(HexaPDF version 0.15.9)>>
       endobj
       2 0 obj
       <</Length 10>>stream

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: hexapdf
 version: !ruby/object:Gem::Version
-  version: 0.15.5
+  version: 0.15.9
 platform: ruby
 authors:
 - Thomas Leitner
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2021-07-06 00:00:00.000000000 Z
+date: 2021-09-04 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: cmdparse