RubyGems - docsplit - Versions diffs - 0.7.6 → 0.8.0.alpha - Mend

docsplit 0.7.6 → 0.8.0.alpha

Files changed (5) hide show

checksums.yaml +4 -4
data/docsplit.gemspec +1 -1
data/lib/docsplit.rb +3 -2
data/lib/docsplit/pdfshaver_extractor.rb +65 -0
metadata +5 -4

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 6c4106dcd5d8d9f8f6a1915a99a438b293154e1e
-  data.tar.gz: 90450ce6412bbedb022f4bc68ec7171f47b5d829
+  metadata.gz: 74386527dc285350f68f32adc8ff00d8386fceb6
+  data.tar.gz: 9af1f5b45c5f684393732ab7e25a8c30c0ab357a
 SHA512:
-  metadata.gz: 1f6ccf476687ce1bf3a5559f07d0f7d8ebd2a80034b102b3058f538fb962a3b537b8e3eaeb245df27f14a4dc70716b69e34599bb50edf3e99e7b8a7b3f38d98d
-  data.tar.gz: 912d974bc4ed17942d32a932232439cd2df6903d6d20e72af31e0e80a1c70fc5e58d4be63bd00f245c53be90dc93a815ffd41a25268072367a1a244a5cb59ec4
+  metadata.gz: 42fe34c591dec03a4392bb2b0c43b1c224062f1ffdb5608bf8671487c3441ac703871e1da48d05428a90f7abb11b191ecfa4eb5d2778b8e886827523250f1561
+  data.tar.gz: de4a3bc034585d2dbcc952fd5276c41d00710f8171671b818bc540032309c1e9c9a0914657cae08f478112366d86f1fc68f4df2f0ae085f132927b74fb1f45bd

data/docsplit.gemspec CHANGED

@@ -1,6 +1,6 @@
 Gem::Specification.new do |s|
   s.name      = 'docsplit'
-  s.version   = '0.7.6'         # Keep version in sync with docsplit.rb
+  s.version   = '0.8.0.alpha'         # Keep version in sync with docsplit.rb
   s.date      = '2014-11-17'
   s.homepage    = "http://documentcloud.github.com/docsplit/"

data/lib/docsplit.rb CHANGED

@@ -5,7 +5,7 @@ require 'shellwords'
 # The Docsplit module delegates to the Java PDF extractors.
 module Docsplit
-  VERSION       = '0.7.6' # Keep in sync with gemspec.
+  VERSION       = '0.8.0' # Keep in sync with gemspec.
   ESCAPE        = lambda {|x| Shellwords.shellescape(x) }
@@ -56,7 +56,7 @@ module Docsplit
   def self.extract_images(pdfs, opts={})
     pdfs = ensure_pdfs(pdfs)
     opts[:pages] = normalize_value(opts[:pages]) if opts[:pages]
-    ImageExtractor.new.extract(pdfs, opts)
+    PDFShaverExtractor.new.extract(pdfs, opts)
   end
   # Use JODCConverter to extract the documents as PDFs.
@@ -101,6 +101,7 @@ module Docsplit
 end
 require "#{Docsplit::ROOT}/lib/docsplit/image_extractor"
+require "#{Docsplit::ROOT}/lib/docsplit/pdfshaver_extractor"
 require "#{Docsplit::ROOT}/lib/docsplit/transparent_pdfs"
 require "#{Docsplit::ROOT}/lib/docsplit/text_extractor"
 require "#{Docsplit::ROOT}/lib/docsplit/page_extractor"

data/lib/docsplit/pdfshaver_extractor.rb ADDED

@@ -0,0 +1,65 @@
+require 'pdfshaver'
+module Docsplit
+  class PDFShaverExtractor
+    MEMORY_ARGS     = "-limit memory 256MiB -limit map 512MiB"
+    DEFAULT_FORMAT  = :png
+    DEFAULT_DENSITY = '150'
+    def extract(paths, options={})
+      extract_options(options)
+      paths.flatten.each do |pdf_path|
+        begin
+          pdf = PDFShaver::Document.new(pdf_path)
+        rescue ArgumentError => e
+          raise ExtractionFailed
+        end
+        pdf.pages(extract_page_list(@pages)).each do |page|
+          @formats.each do |format|
+            @sizes.each do |size_string|
+              directory   = directory_for(size_string)
+              pdf_name    = File.basename(pdf_path, File.extname(pdf_path))
+              filename    = "#{pdf_name}_#{page.number}.#{format}"
+              destination = File.join(directory, filename)
+              FileUtils.mkdir_p ESCAPE[directory]
+              dimensions = page.extract_dimensions_from_gm_geometry_string(size_string)
+              page.render(destination, dimensions)
+            end
+          end
+        end
+      end
+    end
+    private
+    # If there's only one size requested, generate the images directly into
+    # the output directory. Multiple sizes each get a directory of their own.
+    def directory_for(size)
+      path = @sizes.length == 1 ? @output : File.join(@output, size)
+      File.expand_path(path)
+    end
+    # Generate the expanded list of requested page numbers.
+    def extract_page_list(pages)
+      return :all if pages.nil?
+      pages.split(',').map { |range|
+        if range.include?('-')
+          range = range.split('-')
+          Range.new(range.first.to_i, range.last.to_i).to_a.map {|n| n.to_i }
+        else
+          range.to_i
+        end
+      }.flatten.uniq.sort
+    end
+    def extract_options(options)
+      @output  = options[:output]  || '.'
+      @pages   = options[:pages]
+      @density = options[:density] || DEFAULT_DENSITY
+      @formats = [options[:format] || DEFAULT_FORMAT].flatten
+      @sizes   = [options[:size]].flatten.compact
+      @sizes   = [nil] if @sizes.empty?
+      @rolling = !!options[:rolling]
+    end
+  end
+end

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: docsplit
 version: !ruby/object:Gem::Version
-  version: 0.7.6
+  version: 0.8.0.alpha
 platform: ruby
 authors:
 - Jeremy Ashkenas
@@ -33,6 +33,7 @@ files:
 - lib/docsplit/info_extractor.rb
 - lib/docsplit/page_extractor.rb
 - lib/docsplit/pdf_extractor.rb
+- lib/docsplit/pdfshaver_extractor.rb
 - lib/docsplit/text_cleaner.rb
 - lib/docsplit/text_extractor.rb
 - lib/docsplit/transparent_pdfs.rb
@@ -61,12 +62,12 @@ required_ruby_version: !ruby/object:Gem::Requirement
       version: '0'
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
-  - - ">="
+  - - ">"
     - !ruby/object:Gem::Version
-      version: '0'
+      version: 1.3.1
 requirements: []
 rubyforge_project: docsplit
-rubygems_version: 2.2.2
+rubygems_version: 2.4.5
 signing_key:
 specification_version: 4
 summary: Break Apart Documents into Images, Text, Pages and PDFs