RubyGems - pdf-reader - Versions diffs - 2.11.0 → 2.13.0 - Mend

pdf-reader 2.11.0 → 2.13.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

checksums.yaml +4 -4
data/CHANGELOG +9 -0
data/README.md +33 -33
data/lib/pdf/reader/buffer.rb +4 -5
data/lib/pdf/reader/cmap.rb +3 -3
data/lib/pdf/reader/encoding.rb +2 -3
data/lib/pdf/reader/font.rb +2 -2
data/lib/pdf/reader/lzw.rb +1 -1
data/lib/pdf/reader/object_hash.rb +1 -1
data/lib/pdf/reader/pages_strategy.rb +1 -1
data/lib/pdf/reader/parser.rb +1 -3
data/lib/pdf/reader/width_calculator/built_in.rb +1 -1
data/rbi/pdf-reader.rbi +2 -2
metadata +20 -8

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 2c84983c18d983798ff5f2ede514b540ee55a788229501976474b7341bf57fba
-  data.tar.gz: 79b8f092e72a194110062cf7d7e9425c0a6531e145009c9b7c10c2c072b3d1d5
+  metadata.gz: 5db630726ada74d004eb928e8cf164d9a65070150bc99268bed3c3c22a4b16fd
+  data.tar.gz: 186960431832f9808e292e823a1b8cd3ccbe96bf89b7f8e6801b111b0899b690
 SHA512:
-  metadata.gz: '09c97a875bb46389172ed48ae8b2779ba3a8e032852b6a9943f187de13c23649e2398a5374358c62b64cf9e13bbf7f819bb5072d9aaa6882b9b94e96d23f5c13'
-  data.tar.gz: ed92250acee85f4e355785dd043f7774a5883550fe82b01b3cd9e10011f93a1fcdd500108b0e1f4e2af562bddd833c03ca601078b3eba8ee2e9990fd5e76305a
+  metadata.gz: 4cc29c3f7d3dd36ff55178c6825dab455bbfd9f3e3b62298dac03a835c741ffeebaa1959f3b3ceba19c82fe8a516acad554ad41e5142bd4a8c75a9725857fc96
+  data.tar.gz: a89f8815c83d6f89bc51e3aa232776d6d365eb45f0cbfd01ae9de157390144c9ff8bdbdf3e1359048612d3febeffbfd77a01d0c2b08da0b53dad64b6290f6292

data/CHANGELOG CHANGED Viewed

@@ -1,3 +1,12 @@
+v2.13.0 (2nd November 2024)
+- Permit Ascii86 v1.0 and v2.0 (https://github.com/yob/pdf-reader/pull/539)
+- Allow StringIO type for PDF::Reader input (https://github.com/yob/pdf-reader/pull/535)
+v2.12.0 (26th December 2023)
+- Fix a sorbet method signature (http://github.com/yob/pdf-reader/pull/512)
+- Reduce allocations when parsing PDFs with hex strings (http://github.com/yob/pdf-reader/pull/528)
+- Fix text extraction of some rare unicode codepoints (http://github.com/yob/pdf-reader/pull/529)
 v2.11.0 (26th October 2022)
 - Various bug fixes
 - Expanded sorbet type annotations

data/README.md CHANGED Viewed

@@ -20,7 +20,7 @@ page.
 The recommended installation method is via Rubygems.
 ```ruby
-  gem install pdf-reader
+gem install pdf-reader
 ```
 # Usage
@@ -30,23 +30,23 @@ level information (metadata, page count, bookmarks, etc) is available via
 this object.
 ```ruby
-    reader = PDF::Reader.new("somefile.pdf")
+reader = PDF::Reader.new("somefile.pdf")
-    puts reader.pdf_version
-    puts reader.info
-    puts reader.metadata
-    puts reader.page_count
+puts reader.pdf_version
+puts reader.info
+puts reader.metadata
+puts reader.page_count
  ```
 PDF::Reader.new accepts an IO stream or a filename. Here's an example with
 an IO stream:
 ```ruby
-    require 'open-uri'
+require 'open-uri'
-    io     = open('http://example.com/somefile.pdf')
-    reader = PDF::Reader.new(io)
-    puts reader.info
+io     = open('http://example.com/somefile.pdf')
+reader = PDF::Reader.new(io)
+puts reader.info
  ```
 If you open a PDF with File#open or IO#open, I strongly recommend using "rb"
@@ -54,47 +54,47 @@ mode to ensure the file isn't mangled by ruby being 'helpful'. This is
 particularly important on windows and MRI >= 1.9.2.
 ```ruby
-    File.open("somefile.pdf", "rb") do |io|
-      reader = PDF::Reader.new(io)
-      puts reader.info
-    end
+File.open("somefile.pdf", "rb") do |io|
+  reader = PDF::Reader.new(io)
+  puts reader.info
+end
  ```
 PDF is a page based file format, so most visible information is available via
 page-based iteration
 ```ruby
-    reader = PDF::Reader.new("somefile.pdf")
+reader = PDF::Reader.new("somefile.pdf")
-    reader.pages.each do |page|
-      puts page.fonts
-      puts page.text
-      puts page.raw_content
-    end
+reader.pages.each do |page|
+  puts page.fonts
+  puts page.text
+  puts page.raw_content
+end
 ```
 If you need to access the full program for rendering a page, use the walk() method
 of PDF::Reader::Page.
 ```ruby
-    class RedGreenBlue
-      def set_rgb_color_for_nonstroking(r, g, b)
-        puts "R: #{r}, G: #{g}, B: #{b}"
-      end
-    end
-    reader   = PDF::Reader.new("somefile.pdf")
-    page     = reader.page(1)
-    receiver = RedGreenBlue.new
-    page.walk(receiver)
+class RedGreenBlue
+  def set_rgb_color_for_nonstroking(r, g, b)
+    puts "R: #{r}, G: #{g}, B: #{b}"
+  end
+end
+reader   = PDF::Reader.new("somefile.pdf")
+page     = reader.page(1)
+receiver = RedGreenBlue.new
+page.walk(receiver)
 ```
 For low level access to the objects in a PDF file, use the ObjectHash class like
 so:
 ```ruby
-    reader  = PDF::Reader.new("somefile.pdf")
-    puts reader.objects.inspect
+reader  = PDF::Reader.new("somefile.pdf")
+puts reader.objects.inspect
 ```
 # Text Encoding
@@ -141,7 +141,7 @@ the spec folder when you checkout a branch from Git.
 To remove any invalid CRLF characters added while checking out a branch from Git, run:
 ```ruby
-    rake fix_integrity
+rake fix_integrity
 ```
 # Maintainers

data/lib/pdf/reader/buffer.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # coding: ASCII-8BIT
-# typed: strict
+# typed: true
 # frozen_string_literal: true
 ################################################################################
@@ -300,13 +300,12 @@ class PDF::Reader
     # we find a closing >
     #
     def prepare_hex_token
-      finished = :false
       str = "".dup
-      until finished == :true
+      loop do
         byte = @io.getbyte
         if byte.nil?
-          finished = :true # unbalanced params
+          break
         elsif (48..57).include?(byte) || (65..90).include?(byte) || (97..122).include?(byte)
           str << byte
         elsif byte <= 32
@@ -315,7 +314,7 @@ class PDF::Reader
           @tokens << str if str.size > 0
           @tokens << ">" if byte != 0x3E # '>'
           @tokens << byte.chr
-          finished = :true
+          break
         end
       end
     end

data/lib/pdf/reader/cmap.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # coding: utf-8
-# typed: strict
+# typed: true
 # frozen_string_literal: true
 ################################################################################
@@ -118,8 +118,8 @@ class PDF::Reader
       result = []
       while unpacked_string.any? do
         if unpacked_string.size >= 2 &&
-            unpacked_string.first.to_i > 0xD800 &&
-            unpacked_string.first.to_i < 0xDBFF
+            unpacked_string.first.to_i >= 0xD800 &&
+            unpacked_string.first.to_i <= 0xDBFF
           # this is a Unicode UTF-16 "Surrogate Pair" see Unicode Spec. Chapter 3.7
           # lets convert to a UTF-32. (the high bit is between 0xD800-0xDBFF, the
           # low bit is between 0xDC00-0xDFFF) for example: U+1D44E (U+D835 U+DC4E)

data/lib/pdf/reader/encoding.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # coding: utf-8
-# typed: strict
+# typed: true
 # frozen_string_literal: true
 ################################################################################
@@ -119,7 +119,7 @@ class PDF::Reader
     #     => [:A]
     #
     def int_to_name(glyph_code)
-      if @enc_name == "Identity-H" || @enc_name == "Identity-V"
+      if @enc_name == :"Identity-H" || @enc_name == :"Identity-V"
         []
       elsif differences[glyph_code]
         [differences[glyph_code]]
@@ -143,7 +143,6 @@ class PDF::Reader
         CONTROL_CHARS.include?(i) ? [i, UNKNOWN_CHAR] : [i,i]
       }
       mapping = Hash[tuples]
-      mapping[nil] = UNKNOWN_CHAR
       mapping
     end

data/lib/pdf/reader/font.rb CHANGED Viewed

@@ -82,8 +82,8 @@ class PDF::Reader
       glyph_width_in_glyph_space = glyph_width(code_point)
       if @subtype == :Type3
-        x1, y1 = font_matrix_transform(0,0)
-        x2, y2 = font_matrix_transform(glyph_width_in_glyph_space, 0)
+        x1, _y1 = font_matrix_transform(0,0)
+        x2, _y2 = font_matrix_transform(glyph_width_in_glyph_space, 0)
         (x2 - x1).abs.round(2)
       else
         glyph_width_in_glyph_space / 1000.0

data/lib/pdf/reader/lzw.rb CHANGED Viewed

@@ -42,7 +42,7 @@ module PDF
           while bits_left_in_chunk > 0 and @current_pos < @data.size
             chunk = 0 if chunk < 0
             codepoint = @data[@current_pos, 1].to_s.unpack("C*")[0].to_i
-            current_byte = codepoint & (2**@bits_left_in_byte - 1) #clear consumed bits
+            current_byte = codepoint & (2**@bits_left_in_byte - 1).to_i #clear consumed bits
             dif = bits_left_in_chunk - @bits_left_in_byte
             if dif > 0 then  current_byte <<= dif
             elsif dif < 0 then  current_byte >>= dif.abs

data/lib/pdf/reader/object_hash.rb CHANGED Viewed

@@ -612,7 +612,7 @@ class PDF::Reader
       if File.respond_to?(:binread)
         File.binread(input.to_s)
       else
-        File.open(input.to_s,"rb") { |f| f.read } || ""
+        File.open(input.to_s,"rb") { |f| f.read }
       end
     end

data/lib/pdf/reader/pages_strategy.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # coding: utf-8
-# typed: strict
+# typed: true
 # frozen_string_literal: true
 ################################################################################

data/lib/pdf/reader/parser.rb CHANGED Viewed

@@ -173,9 +173,7 @@ class PDF::Reader
       # add a missing digit if required, as required by the spec
       str << "0" unless str.size % 2 == 0
-      str.chars.each_slice(2).map { |nibbles|
-        nibbles.join("").hex.chr
-      }.join.force_encoding("binary")
+      [str].pack('H*')
     end
     ################################################################################
     # Reads a PDF String from the buffer and converts it to a Ruby String

data/lib/pdf/reader/width_calculator/built_in.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # coding: utf-8
-# typed: strict
+# typed: true
 # frozen_string_literal: true
 require 'afm'

data/rbi/pdf-reader.rbi CHANGED Viewed

@@ -4,7 +4,7 @@ module PDF
     sig { returns(PDF::Reader::ObjectHash) }
     attr_reader :objects
-    sig { params(input: T.any(String, Tempfile, IO), opts: T::Hash[T.untyped, T.untyped]).void }
+    sig { params(input: T.any(String, Tempfile, IO, StringIO), opts: T::Hash[T.untyped, T.untyped]).void }
     def initialize(input, opts = {})
       @cache = T.let(T.unsafe(nil), PDF::Reader::ObjectCache)
       @objects = T.let(T.unsafe(nil), PDF::Reader::ObjectHash)
@@ -842,7 +842,7 @@ module PDF
       sig { params(runs: T::Array[PDF::Reader::TextRun]).returns(T::Array[PDF::Reader::TextRun]) }
       def self.exclude_redundant_runs(runs); end
-      sig { params(sweep_line_status: T::Array[PDF::Reader::TextRun], event_point: EventPoint).returns(T::Boolean) }
+      sig { params(sweep_line_status: T::Array[PDF::Reader::TextRun], event_point: PDF::Reader::EventPoint).returns(T::Boolean) }
       def self.detect_intersection(sweep_line_status, event_point); end
     end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: pdf-reader
 version: !ruby/object:Gem::Version
-  version: 2.11.0
+  version: 2.13.0
 platform: ruby
 authors:
 - James Healy
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2022-10-26 00:00:00.000000000 Z
+date: 2024-11-02 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rake
@@ -98,16 +98,28 @@ dependencies:
   name: Ascii85
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
         version: '1.0'
+    - - "<"
+      - !ruby/object:Gem::Version
+        version: '3.0'
+    - - "!="
+      - !ruby/object:Gem::Version
+        version: 2.0.0
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
         version: '1.0'
+    - - "<"
+      - !ruby/object:Gem::Version
+        version: '3.0'
+    - - "!="
+      - !ruby/object:Gem::Version
+        version: 2.0.0
 - !ruby/object:Gem::Dependency
   name: ruby-rc4
   requirement: !ruby/object:Gem::Requirement
@@ -289,9 +301,9 @@ licenses:
 - MIT
 metadata:
   bug_tracker_uri: https://github.com/yob/pdf-reader/issues
-  changelog_uri: https://github.com/yob/pdf-reader/blob/v2.11.0/CHANGELOG
-  documentation_uri: https://www.rubydoc.info/gems/pdf-reader/2.11.0
-  source_code_uri: https://github.com/yob/pdf-reader/tree/v2.11.0
+  changelog_uri: https://github.com/yob/pdf-reader/blob/v2.13.0/CHANGELOG
+  documentation_uri: https://www.rubydoc.info/gems/pdf-reader/2.13.0
+  source_code_uri: https://github.com/yob/pdf-reader/tree/v2.13.0
 post_install_message:
 rdoc_options:
 - "--title"
@@ -312,7 +324,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.2.32
+rubygems_version: 3.4.10
 signing_key:
 specification_version: 4
 summary: A library for accessing the content of PDF files