RubyGems - pdf-reader - Versions diffs - 1.4.1 → 2.5.0 - Mend

pdf-reader 1.4.1 → 2.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (79) hide show

checksums.yaml +5 -5
data/CHANGELOG +53 -3
data/{README.rdoc → README.md} +40 -23
data/Rakefile +2 -2
data/bin/pdf_callbacks +1 -1
data/bin/pdf_object +4 -1
data/bin/pdf_text +1 -1
data/lib/pdf/reader/afm/Courier-Bold.afm +342 -342
data/lib/pdf/reader/afm/Courier-BoldOblique.afm +342 -342
data/lib/pdf/reader/afm/Courier-Oblique.afm +342 -342
data/lib/pdf/reader/afm/Courier.afm +342 -342
data/lib/pdf/reader/afm/Helvetica-Bold.afm +2827 -2827
data/lib/pdf/reader/afm/Helvetica-BoldOblique.afm +2827 -2827
data/lib/pdf/reader/afm/Helvetica-Oblique.afm +3051 -3051
data/lib/pdf/reader/afm/Helvetica.afm +3051 -3051
data/lib/pdf/reader/afm/MustRead.html +19 -0
data/lib/pdf/reader/afm/Symbol.afm +213 -213
data/lib/pdf/reader/afm/Times-Bold.afm +2588 -2588
data/lib/pdf/reader/afm/Times-BoldItalic.afm +2384 -2384
data/lib/pdf/reader/afm/Times-Italic.afm +2667 -2667
data/lib/pdf/reader/afm/Times-Roman.afm +2419 -2419
data/lib/pdf/reader/afm/ZapfDingbats.afm +225 -225
data/lib/pdf/reader/buffer.rb +14 -12
data/lib/pdf/reader/cid_widths.rb +2 -0
data/lib/pdf/reader/cmap.rb +48 -36
data/lib/pdf/reader/encoding.rb +16 -18
data/lib/pdf/reader/error.rb +5 -0
data/lib/pdf/reader/filter/ascii85.rb +1 -0
data/lib/pdf/reader/filter/ascii_hex.rb +2 -0
data/lib/pdf/reader/filter/depredict.rb +1 -0
data/lib/pdf/reader/filter/flate.rb +29 -16
data/lib/pdf/reader/filter/lzw.rb +2 -0
data/lib/pdf/reader/filter/null.rb +2 -0
data/lib/pdf/reader/filter/run_length.rb +4 -6
data/lib/pdf/reader/filter.rb +2 -0
data/lib/pdf/reader/font.rb +12 -13
data/lib/pdf/reader/font_descriptor.rb +1 -0
data/lib/pdf/reader/form_xobject.rb +1 -0
data/lib/pdf/reader/glyph_hash.rb +7 -2
data/lib/pdf/reader/lzw.rb +4 -4
data/lib/pdf/reader/null_security_handler.rb +17 -0
data/lib/pdf/reader/object_cache.rb +1 -0
data/lib/pdf/reader/object_hash.rb +91 -37
data/lib/pdf/reader/object_stream.rb +1 -0
data/lib/pdf/reader/orientation_detector.rb +5 -4
data/lib/pdf/reader/overlapping_runs_filter.rb +65 -0
data/lib/pdf/reader/page.rb +30 -1
data/lib/pdf/reader/page_layout.rb +19 -24
data/lib/pdf/reader/page_state.rb +8 -5
data/lib/pdf/reader/page_text_receiver.rb +23 -1
data/lib/pdf/reader/pages_strategy.rb +2 -304
data/lib/pdf/reader/parser.rb +10 -7
data/lib/pdf/reader/print_receiver.rb +1 -0
data/lib/pdf/reader/reference.rb +1 -0
data/lib/pdf/reader/register_receiver.rb +1 -0
data/lib/pdf/reader/resource_methods.rb +1 -0
data/lib/pdf/reader/standard_security_handler.rb +80 -42
data/lib/pdf/reader/standard_security_handler_v5.rb +91 -0
data/lib/pdf/reader/stream.rb +1 -0
data/lib/pdf/reader/synchronized_cache.rb +1 -0
data/lib/pdf/reader/text_run.rb +28 -9
data/lib/pdf/reader/token.rb +1 -0
data/lib/pdf/reader/transformation_matrix.rb +1 -0
data/lib/pdf/reader/unimplemented_security_handler.rb +17 -0
data/lib/pdf/reader/width_calculator/built_in.rb +25 -16
data/lib/pdf/reader/width_calculator/composite.rb +1 -0
data/lib/pdf/reader/width_calculator/true_type.rb +2 -2
data/lib/pdf/reader/width_calculator/type_one_or_three.rb +1 -0
data/lib/pdf/reader/width_calculator/type_zero.rb +1 -0
data/lib/pdf/reader/width_calculator.rb +1 -0
data/lib/pdf/reader/xref.rb +11 -5
data/lib/pdf/reader.rb +30 -119
data/lib/pdf-reader.rb +1 -0
metadata +35 -61
data/bin/pdf_list_callbacks +0 -17
data/lib/pdf/hash.rb +0 -19
data/lib/pdf/reader/abstract_strategy.rb +0 -81
data/lib/pdf/reader/metadata_strategy.rb +0 -56
data/lib/pdf/reader/text_receiver.rb +0 -265

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
-SHA1:
-  metadata.gz: fb8a5be7c95212f559bb4d26af5fbdb484d21e77
-  data.tar.gz: f8fe70bf868dfff03b47a0b81993d1e680593e84
+SHA256:
+  metadata.gz: 652d05cf6a22fad5ecb4b92de1e27ba60cafc6525c5ca524e24c7f9796fe1b83
+  data.tar.gz: 2c7448e97890a9fcbd10ec2cd5bafb9025db2fb75dabaf71a4074c542b1065a1
 SHA512:
-  metadata.gz: b881cecddfa41e3ad15dcafd31d4109290c664d0cf06478f3af6769aa7ced108e3ba082db54c6759c117d7559cc118e0d3a971c17b59cb23bf4e50024089fa6b
-  data.tar.gz: 50d61b135d79840dce5e5ca712b5db5185deefeee5de13d2adc63c1a8e1eb4b383bb0e8bb491c03bea49d11c4edf130b0fdb3b2eafea63ee0b85ca0390e047a0
+  metadata.gz: ac82452924cf46af98ee15f2a20642b1d06d5b9c22104fe171b5b4612665e482f341e12473805016ccb9d921fc15324ba51675170b369adeace8b278cd1279fb
+  data.tar.gz: b1dc1c4422b0e6bf01092cf724630ba7424fdef1fdaf34f33aaa3a31397caf6ef5a73185a98e6e2828a9e082d87cbca311565397cb064cac20d86e72be27626f

data/CHANGELOG CHANGED Viewed

@@ -1,5 +1,55 @@
+v2.5.0 (6th June 2021)
+- bump minimum ruby version to 2.0
+- Correctly handle trascoding to UTF-8 from some fonts that use a difference table [#344](https://github.com/yob/pdf-reader/pull/344/)
+- Fix some character spacing issues with the TJ operator [#343](https://github.com/yob/pdf-reader/pull/343)
+- Fix crash with some encrypted PDFs [#348](https://github.com/yob/pdf-reader/pull/348/)
+- Fix positions of text on some PDFs with pages rotated 90° [#350](https://github.com/yob/pdf-reader/pull/350/)
+v2.4.2 (28th January 2021)
+- relax ASCII85 dependency to allow 1.x
+- improved support for decompressing objects with slightly malformed zlib data
+v.2.4.1 (24th September 2020)
+- Re-vendor font metrics from Adobe to clarify their license
+v2.4.0 (21st November 2019)
+- Optimise overlapping characters code introduced in 2.3.0. Text extraction of pages with
+  thousands of characters is still slower than it was in 2.2.1, but it might tolerable
+  for now. See https://github.com/yob/pdf-reader/pull/308 for details.
+- Implement very basic font substitution for Type1 and TrueType fonts that aren't embedded
+- Remove PDF::Hash class. It's been deprecated since 2010, and it's hard to believe anyone
+  is still using it.
+- Several small bug fixes
+v2.3.0 (7th November 2019)
+- Text extraction now makes an effort to skip duplicate characters that overlap, a
+  common approach used for a fake "bold" effect, This will make text extraction a bit
+  slower - if that turns out to be an issue I'll look into further optimisations or
+  provide a toggle to turn it off
+- Several small bug fixes
+v2.2.1 (27th July 2019)
+- Improve utf8 text extraction from CMaps that contain surrogate pair ligatures
+v2.2.0 (18th December 2018)
+- Support additional XRef Stream variants (thanks Stefan Wienert)
+- Add frozen_strings pragma to reduce object allocations on ruby 2.3+
+- various bug fixes
+v2.1.0 (15th February 2018)
+- Support extra encrypted PDF variants (thanks to Gyuchang Jun)
+- various bug fixes
+v2.0.0 (25th February 2017)
+- various bug fixes
+v2.0.0.beta1 (15th February 2017)
+- BREAKING CHANGE: remove all methods that were deprecated in 1.0.0
+- Bug: Support extra encrypted PDF variants (thanks to Gyuchang Jun)
+- various bug fixes
 v1.4.1 (2nd January 2017)
-- improve compatability with ruby 2.4 (thanks Akira Matsuda)
+- improve compatibility with ruby 2.4 (thanks Akira Matsuda)
 - various bug fixes
 v1.4.0 (22nd February 2016)
@@ -91,10 +141,10 @@ v0.9.2 (24th April 2011)
 v0.9.1 (21st December 2010)
 - force gem to only install on ruby 1.8.7 or higher
-  - maintaining supprot for earlier versions takes more time than I have
+  - maintaining support for earlier versions takes more time than I have
     available at the moment
 - bug: fix parsing of obscure pdf name format
-- bug: fix behaviour when loaded in confunction with htmldoc gem
+- bug: fix behaviour when loaded in conjunction with htmldoc gem
 v0.9.0 (19th November 2010)
 - support for pdf 1.5+ files that use object and xref streams

data/{README.rdoc → README.md} RENAMED Viewed

@@ -1,4 +1,4 @@
-= Release Notes
+# pdf-reader
 The PDF::Reader library implements a PDF parser conforming as much as possible
 to the PDF specification from Adobe.
@@ -15,46 +15,55 @@ higher level functionality - it's not going to render a PDF for you. There are
 a few exceptions to support very common use cases like extracting text from a
 page.
-= Installation
+# Installation
 The recommended installation method is via Rubygems.
+```ruby
   gem install pdf-reader
+```
-= Usage
+# Usage
 Begin by creating a PDF::Reader instance that points to a PDF file. Document
 level information (metadata, page count, bookmarks, etc) is available via
 this object.
+```ruby
     reader = PDF::Reader.new("somefile.pdf")
     puts reader.pdf_version
     puts reader.info
     puts reader.metadata
     puts reader.page_count
+ ```
 PDF::Reader.new accepts an IO stream or a filename. Here's an example with
 an IO stream:
+```ruby
     require 'open-uri'
     io     = open('http://example.com/somefile.pdf')
     reader = PDF::Reader.new(io)
     puts reader.info
+ ```
 If you open a PDF with File#open or IO#open, I strongly recommend using "rb"
 mode to ensure the file isn't mangled by ruby being 'helpful'. This is
 particularly important on windows and MRI >= 1.9.2.
+```ruby
     File.open("somefile.pdf", "rb") do |io|
       reader = PDF::Reader.new(io)
       puts reader.info
     end
+ ```
 PDF is a page based file format, so most visible information is available via
 page-based iteration
+```ruby
     reader = PDF::Reader.new("somefile.pdf")
     reader.pages.each do |page|
@@ -62,10 +71,12 @@ page-based iteration
       puts page.text
       puts page.raw_content
     end
+```
 If you need to access the full program for rendering a page, use the walk() method
 of PDF::Reader::Page.
+```ruby
     class RedGreenBlue
       def set_rgb_color_for_nonstroking(r, g, b)
         puts "R: #{r}, G: #{g}, B: #{b}"
@@ -76,31 +87,32 @@ of PDF::Reader::Page.
     page     = reader.page(1)
     receiver = RedGreenBlue.new
     page.walk(receiver)
+```
 For low level access to the objects in a PDF file, use the ObjectHash class like
 so:
+```ruby
     reader  = PDF::Reader.new("somefile.pdf")
     puts reader.objects.inspect
+```
-= Text Encoding
+# Text Encoding
 Regardless of the internal encoding used in the PDF all text will be converted
 to UTF-8 before it is passed back from PDF::Reader.
-Strings that contain binary data (like font blobs) will be marked as such on
-M17N aware VMs.
+Strings that contain binary data (like font blobs) will be marked as such.
-= Former API
+# Former API
 Version 1.0.0 of PDF::Reader introduced a new page-based API that provides
 efficient and easy access to any page.
-The previous API is marked as deprecated but will continue to work for the
-time being. Eventually calls to the old API will begin triggering deprecation
-warnings before it is completely removed in version 2.0.0.
+The pre-1.0 API was deprecated during the 1.x release series, and has been
+removed from 2.0.0.
-= Exceptions
+# Exceptions
 There are two key exceptions that you will need to watch out for when processing a
 PDF file:
@@ -120,7 +132,7 @@ don't, 'rescue MalformedPDFError' will catch all the subclassed errors as well.
 Any other exceptions should be considered bugs in either PDF::Reader (please
 report it!).
-= PDF Integrity
+# PDF Integrity
 Windows developers may run into problems when running specs due to MalformedPDFError's
 This is usually because CRLF characters are automatically added to some of the PDF's in
@@ -128,18 +140,20 @@ the spec folder when you checkout a branch from Git.
 To remove any invalid CRLF characters added while checking out a branch from Git, run:
+```ruby
     rake fix_integrity
+```
-= Maintainers
+# Maintainers
-- James Healy <mailto:jimmy@deefa.com>
+* James Healy <mailto:jimmy@deefa.com>
-= Licensing
+# Licensing
 This library is distributed under the terms of the MIT License. See the included file for
 more detail.
-= Mailing List
+# Mailing List
 Any questions or feedback should be sent to the PDF::Reader google group. It's
 better that any answers be available for others instead of hiding in someone's
@@ -147,20 +161,23 @@ inbox.
 http://groups.google.com/group/pdf-reader
-= Examples
+# Examples
 The easiest way to explain how this works in practice is to show some examples.
 Check out the examples/ directory for a few files.
-= Known Limitations
+# Known Limitations
 Occasionally some text cannot be extracted properly due to the way it has been
 stored, or the use of invalid bytes. In these cases PDF::Reader will output a
 little UTF-8 friendly box to indicate an unrecognisable character.
-= Resources
+# Resources
-- PDF::Reader Code Repository: http://github.com/yob/pdf-reader
-- PDF Specification: http://www.adobe.com/devnet/pdf/pdf_reference.html
-- PDF Tutorial Slide Presentations: http://home.comcast.net/~jk05/presentations/PDFTutorials.html
-- Developing with PDF (book): http://shop.oreilly.com/product/0636920025269.do
+* PDF::Reader Code Repository: http://github.com/yob/pdf-reader
+* PDF Specification: http://www.adobe.com/devnet/pdf/pdf_reference.html
+* PDF Tutorial Slide Presentations: https://web.archive.org/web/20150110042057/http://home.comcast.net/~jk05/presentations/PDFTutorials.html
+* Developing with PDF (book): http://shop.oreilly.com/product/0636920025269.do

data/Rakefile CHANGED Viewed

@@ -14,7 +14,7 @@ desc "Run cane to check quality metrics"
 Cane::RakeTask.new(:quality) do |cane|
   cane.abc_max = 20
   cane.style_measure = 100
-  cane.max_violations = 93
+  cane.max_violations = 31
   cane.use Morecane::EncodingCheck, :encoding_glob => "{app,lib,spec}/**/*.rb"
 end
@@ -41,7 +41,7 @@ end
 desc "Create a YAML file of integrity info for PDFs in the spec suite"
 task :integrity_yaml do
   data = {}
-  Dir.glob("spec/data/**/*.*").each do |path|
+  Dir.glob("spec/data/**/*.*").sort.each do |path|
     path_without_spec = path.gsub("spec/","")
     data[path_without_spec] = {
       :bytes => File.size(path),

data/bin/pdf_callbacks CHANGED Viewed

@@ -9,7 +9,7 @@ require 'pdf/reader'
 receiver = PDF::Reader::PrintReceiver.new
 if ARGV.empty?
-  browser = PDF::Reader.new($stdin)
+  browser = PDF::Reader.new(StringIO.new(ARGF.read))
 else
   browser = PDF::Reader.new(ARGV[0])
 end

data/bin/pdf_object CHANGED Viewed

@@ -25,7 +25,10 @@ gen = gen.to_i
 # make magic happen
 begin
-  obj = PDF::Reader.object_file(filename, id, gen)
+  obj = nil
+  PDF::Reader.open(filename) do |pdf|
+    obj = pdf.objects[PDF::Reader::Reference.new(id, gen)]
+  end
   case obj
   when Hash, Array

data/bin/pdf_text CHANGED Viewed

@@ -4,7 +4,7 @@ require 'rubygems'
 require 'pdf/reader'
 if ARGV.empty?
-  browser = PDF::Reader.new($stdin)
+  browser = PDF::Reader.new(StringIO.new(ARGF.read))
 else
   browser = PDF::Reader.new(ARGV[0])
 end