RubyGems - combine_pdf - Versions diffs - 1.0.3 → 1.0.4 - Mend

combine_pdf 1.0.3 → 1.0.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: cb506a3a76c6eb84531ff5069cd3286147dc8fac
-  data.tar.gz: afb908cfd43b301bfabb3bc53bceccce2e82c4ac
+  metadata.gz: a262d8592dbe90e0a4930aebadda8866b731a586
+  data.tar.gz: fdf9a2877028b673f55d23741f8c8f59af647a4f
 SHA512:
-  metadata.gz: 59d1e37087daed2e4f84ecef8bc2d817ddf14a25ec06f47748739d83d1732a206d6ede05ea3531ea444668d28295d891bd43bc6575413ad00217b76ed610ff47
-  data.tar.gz: 10a6f92d6c37d966ac5d6df0886961237227e1264726bb609fdb33083d1b6a816672f43996123e3e747ac42e227a1a8b211fae42f86dcb90e4b1e7405fb72d5d
+  metadata.gz: 763aa425d24ef58b83717123f4ef7c962d2ecd083a39275df136950872e286af49d0efbc8f8d2a2f4cf0967439848c151e587073497a8ff1a7fd9b0f9ef42d7f
+  data.tar.gz: 1c86313e09d88a07e4a2ee43fd53ce445b784770140a6892854d8f50d9dff9140c5fd993ae4d50b54ffa12f0cea6fb706a1026e18304185ccdedae3ceee0fbcb

data/lib/combine_pdf/parser.rb CHANGED Viewed

@@ -52,6 +52,7 @@ module CombinePDF
       @forms_object = {}.dup
       @metadata = nil
       @strings_dictionary = {}.dup # all strings are one string
+      @resolution_hash = {}.dup
       @version = nil
       @scanner = nil
       @allow_optional_content = options[:allow_optional_content]
@@ -95,18 +96,20 @@ module CombinePDF
         # do we really need to apply to @parsed? No, there is no need.
       end
-      ## search for objects streams
-      object_streams = @parsed.select { |obj| obj.is_a?(Hash) && obj[:Type] == :ObjStm }
-      unless object_streams.empty?
-        warn 'PDF 1.5 Object streams found - they are not fully supported! attempting to extract objects.'
-        object_streams.each do |o|
+      # search for objects streams and replace them "in-place"
+      # the inplace resolution prevents versioning errors
+      while (true)
+        found_object_streams = false
+        @parsed.length.times do |i|
+          o = @parsed[i]
+          next unless o.is_a?(Hash) && o[:Type] == :ObjStm
           ## un-encode (using the correct filter) the object streams
           PDFFilter.inflate_object o
-          ## extract objects from stream to top level arry @parsed
+          ## extract objects from stream
           @scanner = StringScanner.new o[:raw_stream_content]
           stream_data = _parse_
           id_array = []
+          collection = [nil]
           while stream_data[0].is_a? (Numeric)
             id_array << stream_data.shift
             stream_data.shift
@@ -115,11 +118,42 @@ module CombinePDF
             stream_data[0] = { indirect_without_dictionary: stream_data[0] } unless stream_data[0].is_a?(Hash)
             stream_data[0][:indirect_reference_id] = id_array.shift
             stream_data[0][:indirect_generation_number] = 0
-            @parsed << stream_data.shift
+            collection << (stream_data.shift)
           end
+          # place new objects right after this one (removing this one as well)
+          @parsed[i] = collection
+          found_object_streams = true
         end
+        break unless found_object_streams
+        @parsed.flatten!
+        @parsed.compact!
       end
+      #
+      # object_streams = @parsed.select { |obj| obj.is_a?(Hash) && obj[:Type] == :ObjStm }
+      # unless object_streams.empty?
+      #   warn 'PDF 1.5 Object streams found - they are not fully supported! attempting to extract objects.'
+      #
+      #   object_streams.each do |o|
+      #     ## un-encode (using the correct filter) the object streams
+      #     PDFFilter.inflate_object o
+      #     ## extract objects from stream to top level arry @parsed
+      #     @scanner = StringScanner.new o[:raw_stream_content]
+      #     stream_data = _parse_
+      #     id_array = []
+      #     while stream_data[0].is_a? (Numeric)
+      #       id_array << stream_data.shift
+      #       stream_data.shift
+      #     end
+      #     while id_array[0] && stream_data[0]
+      #       stream_data[0] = { indirect_without_dictionary: stream_data[0] } unless stream_data[0].is_a?(Hash)
+      #       stream_data[0][:indirect_reference_id] = id_array.shift
+      #       stream_data[0][:indirect_generation_number] = 0
+      #       @parsed << stream_data.shift
+      #     end
+      #   end
+      # end
       # serialize_objects_and_references.catalog_pages
       # Benchmark.bm do |bm|
@@ -149,6 +183,9 @@ module CombinePDF
       else
         @info_object = {}
       end
+      # we can clear the resolution hash now
+      @resolution_hash.clear if @resolution_hash
       # # # ## remove object streams - if they exist
       # @parsed.reject! {|obj| object_streams << obj if obj.is_a?(Hash) && obj[:Type] == :ObjStm}
       # # # ## remove XREF dictionaries - if they exist
@@ -377,7 +414,7 @@ module CombinePDF
           if @scanner.matched[-1] == 'r'
             if @scanner.skip_until(/<</)
               data = _parse_
-              @root_object ||= {}
+              (@root_object ||= {}).clear
               @root_object[data.shift] = data.shift while data[0]
             end
             ##########
@@ -514,39 +551,6 @@ module CombinePDF
       self
     end
-    def get_refernced_object(reference_hash = {})
-      @parsed.each do |stored_object|
-        return stored_object if stored_object.is_a?(Hash) &&
-                                reference_hash[:indirect_reference_id] == stored_object[:indirect_reference_id] &&
-                                reference_hash[:indirect_generation_number] == stored_object[:indirect_generation_number]
-        #   return (stored_object[:indirect_without_dictionary] || stored_object) if stored_object.is_a?(Hash) &&
-        #                                                                            reference_hash[:indirect_reference_id] == stored_object[:indirect_reference_id] &&
-        #                                                                            reference_hash[:indirect_generation_number] == stored_object[:indirect_generation_number]
-      end
-      warn "didn't find reference #{reference_hash}"
-      nil
-    end
-    # # @private
-    # # connects references and objects, according to their reference id's.
-    # #
-    # # should be moved to the parser's workflow.
-    # #
-    # def serialize_objects_and_references_old
-    #   obj_dir = {}
-    #   # create a dictionary for referenced objects (no value resolution at this point)
-    #   @parsed.each { |o| obj_dir[[o.delete(:indirect_reference_id), o.delete(:indirect_generation_number)]] = o }
-    #   # @parsed.each {|o| obj_dir[ [ o.[](:indirect_reference_id), o.[](:indirect_generation_number) ] ] = o }
-    #   @references.each do |obj|
-    #     obj[:referenced_object] = obj_dir[[obj[:indirect_reference_id], obj[:indirect_generation_number]]]
-    #     warn "couldn't connect a reference!!! could be a null or removed (empty) object, Silent error!!!\n Object raising issue: #{obj}" unless obj[:referenced_object]
-    #     obj.delete(:indirect_reference_id); obj.delete(:indirect_generation_number)
-    #   end
-    #   obj_dir.clear
-    #   @references.clear
-    #   self
-    # end
     # @private
     # connects references and objects, according to their reference id's.
     #
@@ -556,9 +560,23 @@ module CombinePDF
     #
     def serialize_objects_and_references
       obj_dir = {}
+      objid_cache = {}
       # create a dictionary for referenced objects (no value resolution at this point)
-      # @parsed.each { |o| obj_dir[[o.delete(:indirect_reference_id), o.delete(:indirect_generation_number)]] = o }
-      @parsed.each { |o| obj_dir[[o[:indirect_reference_id], o[:indirect_generation_number]]] = o }
+      # at the same time, delete duplicates and old versions when objects have multiple versions
+      @parsed.uniq!
+      @parsed.length.times do |i|
+        o = @parsed[i]
+        objid_cache[o.object_id] = i
+        tmp_key = [o[:indirect_reference_id], o[:indirect_generation_number]]
+        if tmp_found = obj_dir[tmp_key]
+          tmp_found.clear
+          @parsed[objid_cache[tmp_found.object_id]] = nil
+        end
+        obj_dir[tmp_key] = o
+      end
+      @parsed.compact!
+      objid_cache.clear
       should_resolve = [@parsed, @root_object]
       while should_resolve.count > 0
         obj = should_resolve.pop

data/lib/combine_pdf/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module CombinePDF
-  VERSION = '1.0.3'.freeze
+  VERSION = '1.0.4'.freeze
 end

data/test/automated CHANGED Viewed

@@ -19,6 +19,10 @@ pdf << CombinePDF.load("./Ruby/test\ pdfs/empty_form.pdf")
 pdf << CombinePDF.load("./Ruby/test\ pdfs/filled_form.pdf")
 pdf.save '02_check_form_unification_middle_is_empty.pdf'
+pdf = CombinePDF.load "./Ruby/test\ pdfs/check_form_data__objstreams_w_versions.pdf"
+pdf.save '02_01_check_form_data_ordering_issue.pdf'
 pdf = CombinePDF.load './Ruby/test pdfs/share-font-background.pdf'
 pdf2 = CombinePDF.load './Ruby/test pdfs/share-font-foreground.pdf'
 i = 0

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: combine_pdf
 version: !ruby/object:Gem::Version
-  version: 1.0.3
+  version: 1.0.4
 platform: ruby
 authors:
 - Boaz Segev
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2017-06-13 00:00:00.000000000 Z
+date: 2017-07-07 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: ruby-rc4