RubyGems - docsplit - Versions diffs - 0.7.6 → 0.8.0.alpha - Mend

docsplit 0.7.6 → 0.8.0.alpha

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

checksums.yaml +4 -4
data/docsplit.gemspec +1 -1
data/lib/docsplit.rb +3 -2
data/lib/docsplit/pdfshaver_extractor.rb +65 -0
metadata +5 -4

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 6c4106dcd5d8d9f8f6a1915a99a438b293154e1e
-  data.tar.gz: 90450ce6412bbedb022f4bc68ec7171f47b5d829
+  metadata.gz: 74386527dc285350f68f32adc8ff00d8386fceb6
+  data.tar.gz: 9af1f5b45c5f684393732ab7e25a8c30c0ab357a
 SHA512:
-  metadata.gz: 1f6ccf476687ce1bf3a5559f07d0f7d8ebd2a80034b102b3058f538fb962a3b537b8e3eaeb245df27f14a4dc70716b69e34599bb50edf3e99e7b8a7b3f38d98d
-  data.tar.gz: 912d974bc4ed17942d32a932232439cd2df6903d6d20e72af31e0e80a1c70fc5e58d4be63bd00f245c53be90dc93a815ffd41a25268072367a1a244a5cb59ec4
+  metadata.gz: 42fe34c591dec03a4392bb2b0c43b1c224062f1ffdb5608bf8671487c3441ac703871e1da48d05428a90f7abb11b191ecfa4eb5d2778b8e886827523250f1561
+  data.tar.gz: de4a3bc034585d2dbcc952fd5276c41d00710f8171671b818bc540032309c1e9c9a0914657cae08f478112366d86f1fc68f4df2f0ae085f132927b74fb1f45bd

data/docsplit.gemspec CHANGED

@@ -1,6 +1,6 @@
 Gem::Specification.new do |s|
   s.name      = 'docsplit'
-  s.version   = '0.7.6'         # Keep version in sync with docsplit.rb
+  s.version   = '0.8.0.alpha'         # Keep version in sync with docsplit.rb
   s.date      = '2014-11-17'
   s.homepage    = "http://documentcloud.github.com/docsplit/"

data/lib/docsplit.rb CHANGED

@@ -5,7 +5,7 @@ require 'shellwords'
 # The Docsplit module delegates to the Java PDF extractors.
 module Docsplit
-  VERSION       = '0.7.6' # Keep in sync with gemspec.
+  VERSION       = '0.8.0' # Keep in sync with gemspec.
   ESCAPE        = lambda {|x| Shellwords.shellescape(x) }
@@ -56,7 +56,7 @@ module Docsplit
   def self.extract_images(pdfs, opts={})
     pdfs = ensure_pdfs(pdfs)
     opts[:pages] = normalize_value(opts[:pages]) if opts[:pages]
-    ImageExtractor.new.extract(pdfs, opts)
+    PDFShaverExtractor.new.extract(pdfs, opts)
   end
   # Use JODCConverter to extract the documents as PDFs.
@@ -101,6 +101,7 @@ module Docsplit
 end
 require "#{Docsplit::ROOT}/lib/docsplit/image_extractor"
+require "#{Docsplit::ROOT}/lib/docsplit/pdfshaver_extractor"
 require "#{Docsplit::ROOT}/lib/docsplit/transparent_pdfs"
 require "#{Docsplit::ROOT}/lib/docsplit/text_extractor"
 require "#{Docsplit::ROOT}/lib/docsplit/page_extractor"

data/lib/docsplit/pdfshaver_extractor.rb ADDED

@@ -0,0 +1,65 @@
+require 'pdfshaver'
+module Docsplit
+  class PDFShaverExtractor
+    MEMORY_ARGS     = "-limit memory 256MiB -limit map 512MiB"
+    DEFAULT_FORMAT  = :png
+    DEFAULT_DENSITY = '150'
+    def extract(paths, options={})
+      extract_options(options)
+      paths.flatten.each do |pdf_path|
+        begin
+          pdf = PDFShaver::Document.new(pdf_path)
+        rescue ArgumentError => e
+          raise ExtractionFailed
+        end
+        pdf.pages(extract_page_list(@pages)).each do |page|
+          @formats.each do |format|
+            @sizes.each do |size_string|
+              directory   = directory_for(size_string)
+              pdf_name    = File.basename(pdf_path, File.extname(pdf_path))
+              filename    = "#{pdf_name}_#{page.number}.#{format}"
+              destination = File.join(directory, filename)
+              FileUtils.mkdir_p ESCAPE[directory]
+              dimensions = page.extract_dimensions_from_gm_geometry_string(size_string)
+              page.render(destination, dimensions)
+            end
+          end
+        end
+      end
+    end
+    private
+    # If there's only one size requested, generate the images directly into
+    # the output directory. Multiple sizes each get a directory of their own.
+    def directory_for(size)
+      path = @sizes.length == 1 ? @output : File.join(@output, size)
+      File.expand_path(path)
+    end
+    # Generate the expanded list of requested page numbers.
+    def extract_page_list(pages)
+      return :all if pages.nil?
+      pages.split(',').map { |range|
+        if range.include?('-')
+          range = range.split('-')
+          Range.new(range.first.to_i, range.last.to_i).to_a.map {|n| n.to_i }
+        else
+          range.to_i
+        end
+      }.flatten.uniq.sort
+    end
+    def extract_options(options)
+      @output  = options[:output]  || '.'
+      @pages   = options[:pages]
+      @density = options[:density] || DEFAULT_DENSITY
+      @formats = [options[:format] || DEFAULT_FORMAT].flatten
+      @sizes   = [options[:size]].flatten.compact
+      @sizes   = [nil] if @sizes.empty?
+      @rolling = !!options[:rolling]
+    end
+  end
+end

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: docsplit
 version: !ruby/object:Gem::Version
-  version: 0.7.6
+  version: 0.8.0.alpha
 platform: ruby
 authors:
 - Jeremy Ashkenas
@@ -33,6 +33,7 @@ files:
 - lib/docsplit/info_extractor.rb
 - lib/docsplit/page_extractor.rb
 - lib/docsplit/pdf_extractor.rb
+- lib/docsplit/pdfshaver_extractor.rb
 - lib/docsplit/text_cleaner.rb
 - lib/docsplit/text_extractor.rb
 - lib/docsplit/transparent_pdfs.rb
@@ -61,12 +62,12 @@ required_ruby_version: !ruby/object:Gem::Requirement
       version: '0'
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
-  - - ">="
+  - - ">"
     - !ruby/object:Gem::Version
-      version: '0'
+      version: 1.3.1
 requirements: []
 rubyforge_project: docsplit
-rubygems_version: 2.2.2
+rubygems_version: 2.4.5
 signing_key:
 specification_version: 4
 summary: Break Apart Documents into Images, Text, Pages and PDFs