RubyGems - pdftdx - Versions diffs - 1.1.8 → 1.2.0 - Mend

pdftdx 1.1.8 → 1.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 0f4d29312cf65b9cdb06d6f67a5a6c00a0dba8ad
-  data.tar.gz: 53f54c86ef77df038ac25091d771c8d7a32d3ea0
+  metadata.gz: 369947ea208604dcb52e6a9f329df412709d0f0f
+  data.tar.gz: 14d1803d485efed81cfc14e89d720f8da9e0d5bc
 SHA512:
-  metadata.gz: 10f71afdd59fae8a75ccce78955bd5465e72efc1bfdf6e600269e119479a3b09d444e414eb0be83e33c6d7c4cdb98904e1b145e713cd8f0ea2c49bb2a439a68e
-  data.tar.gz: 3de4e256aa6dec1969c1d0c65e75a09228bb0ab072cc1ec7283f705e29d4e1203d2e1d244b46f7aad5c91dbdb3847728db6f1ec49ff171926d8e910e5908afa9
+  metadata.gz: 71965bd9e8648e4be72546718891ea87d3d521080711396adaf50325359a0d90d445b0a56e0c210307698561f49f6c93379b47c4416d6a0fb05ad0211886b9db
+  data.tar.gz: bb9f966e063c2a8d3e83b60c9e8af61635ed8e7e7d9e98508ebc456bf2cca3b40e2a243bafb1d3036fc5eb5fab30ea1ce8a4b0437e80119e08432a3416d8aadc

data/lib/pdftdx/parser.rb CHANGED Viewed

@@ -152,6 +152,28 @@ module PDFTDX
 			Hash[*(r.to_a.sort { |a, b| ((a[0] == b[0]) ? 0 : (a[0] > b[0] ? 1 : -1)) }.flatten)]
 		end
+		# Fix Dupes
+		# Shifts Duplicate Cells (Cells which share their x-offset with others) to the right (so they don't get overwritten)
+		# @param [Array] r A row of data in the form [[xoffset, cell]] (Example: [[120, 'cell 0'], [200, 'cell 1'], [280, 'cell 2']])
+		# @param [Array] The same row of data, but with duplicate cells shifted so that no x-offset-collisions occur
+		def self.fix_dupes r
+			# Deep-Duplicate Row
+			nr = r.collect { |e| e.clone }
+			# Run through Cells
+			nr.length.times do |i|
+				# Acquire Duplicate Length
+				dupes = nr.slice(i + 1, nr.length).inject(0) { |a, c| a + (c[0] == nr[i][0] ? 1 : 0) }
+				# Fix Dupes
+				dupes.times { |j| nr[i + j + 1][0] = nr[i + j + 1][0] + 1 }
+			end
+			nr
+		end
 		# Touch up Table
 		# Splits Table into multiple headered tables.
 		# Also, strips Left Offset info from Table Cells.
@@ -177,8 +199,8 @@ module PDFTDX
 				# Compute Row Base (Default Columns)
 				row_base = Hash[*(cols.collect { |c| [c, ''] }.flatten)]
-				# Tables
-				{ head: t[:head], data: t[:data].collect { |r| sort_row row_base.merge(Hash[*(r.collect { |o, c| [(cols.reverse.find { |co| co <= o }) || o, c] }.flatten)]) } }
+				# Re-Build Table
+				{ head: t[:head], data: t[:data].collect { |r| sort_row row_base.merge(Hash[*((fix_dupes r.collect { |o, c| [(cols.reverse.find { |co| co <= o }) || o, c] }).flatten)]) } }
 			end
 			# Drop Offsets

data/lib/pdftdx/version.rb CHANGED Viewed

@@ -5,5 +5,5 @@
 module PDFTDX
 	# Version
-	VERSION = '1.1.8'
+	VERSION = '1.2.0'
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: pdftdx
 version: !ruby/object:Gem::Version
-  version: 1.1.8
+  version: 1.2.0
 platform: ruby
 authors:
 - Eresse