RubyGems - docsplit - Versions diffs - 0.6.0 → 0.6.1 - Mend

docsplit 0.6.0 → 0.6.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

data/docsplit.gemspec +3 -3
data/lib/docsplit.rb +8 -5
data/lib/docsplit/text_extractor.rb +3 -2
data/vendor/conf/document-formats.js +0 -3
data/vendor/jodconverter/jodconverter-core-3.0-beta-4.jar +0 -0
data/vendor/jodconverter/json-20090211.jar +0 -0
data/vendor/jodconverter/juh-3.2.1.jar +0 -0
data/vendor/jodconverter/jurt-3.2.1.jar +0 -0
data/vendor/jodconverter/ridl-3.2.1.jar +0 -0
data/vendor/jodconverter/unoil-3.2.1.jar +0 -0
metadata +14 -16
data/vendor/jodconverter/jodconverter-core-3.0-beta-3.jar +0 -0
data/vendor/jodconverter/json-20080701.jar +0 -0
data/vendor/jodconverter/juh-3.1.0.jar +0 -0
data/vendor/jodconverter/jurt-3.1.0.jar +0 -0
data/vendor/jodconverter/ridl-3.1.0.jar +0 -0
data/vendor/jodconverter/unoil-3.1.0.jar +0 -0

data/docsplit.gemspec CHANGED Viewed

@@ -1,7 +1,7 @@
 Gem::Specification.new do |s|
   s.name      = 'docsplit'
-  s.version   = '0.6.0'         # Keep version in sync with docsplit.rb
-  s.date      = '2011-09-13'
+  s.version   = '0.6.1'         # Keep version in sync with docsplit.rb
+  s.date      = '2011-11-18'
   s.homepage    = "http://documentcloud.github.com/docsplit/"
   s.summary     = "Break Apart Documents into Images, Text, Pages and PDFs"
@@ -12,7 +12,7 @@ Gem::Specification.new do |s|
     metadata (title, author, number of pages...)
   EOS
-  s.authors           = ['Jeremy Ashkenas', 'Samuel Clay']
+  s.authors           = ['Jeremy Ashkenas', 'Samuel Clay', 'Ted Han']
   s.email             = 'jeremy@documentcloud.org'
   s.rubyforge_project = 'docsplit'

data/lib/docsplit.rb CHANGED Viewed

@@ -1,7 +1,7 @@
 # The Docsplit module delegates to the Java PDF extractors.
 module Docsplit
-  VERSION       = '0.6.0' # Keep in sync with gemspec.
+  VERSION       = '0.6.1' # Keep in sync with gemspec.
   ROOT          = File.expand_path(File.dirname(__FILE__) + '/..')
@@ -11,11 +11,14 @@ module Docsplit
   HEADLESS      = "-Djava.awt.headless=true"
-  OFFICE        = RUBY_PLATFORM.match(/darwin/i) ? '' : '-Doffice.home=/usr/lib/openoffice'
+  office ||= "/usr/lib/openoffice" if File.exists? '/usr/lib/openoffice'
+  office ||= "/usr/lib/libreoffice" if File.exists? '/usr/lib/libreoffice'
+  OFFICE        = RUBY_PLATFORM.match(/darwin/i) ? '' : "-Doffice.home=#{office}"
   METADATA_KEYS = [:author, :date, :creator, :keywords, :producer, :subject, :title, :length]
-  GM_FORMATS    = [:png, :gif, :jpg, :jpeg, :tif, :tiff, :bmp, :pnm, :ppm, :svg, :eps]
+  GM_FORMATS    = ["image/gif", "image/jpeg", "image/png", "image/x-ms-bmp", "image/svg+xml", "image/tiff", "image/x-portable-bitmap", "application/postscript", "image/x-portable-pixmap"]
   DEPENDENCIES  = {:java => false, :gm => false, :pdftotext => false, :pdftk => false, :tesseract => false}
@@ -65,10 +68,10 @@ module Docsplit
       basename = File.basename(doc, ext)
       escaped_doc, escaped_out, escaped_basename = [doc, out, basename].map(&ESCAPE)
-      if ext.length > 0 && GM_FORMATS.include?(ext.sub(/^\./, '').downcase.to_sym)
+      if GM_FORMATS.include?(`file -b --mime #{doc}`.strip.split(/[:;]\s+/)[0])
         `gm convert #{escaped_doc} #{escaped_out}/#{escaped_basename}.pdf`
       else
-        options = "-jar #{ROOT}/vendor/jodconverter/jodconverter-core-3.0-beta-3.jar -r #{ROOT}/vendor/conf/document-formats.js"
+        options = "-jar #{ROOT}/vendor/jodconverter/jodconverter-core-3.0-beta-4.jar -r #{ROOT}/vendor/conf/document-formats.js"
         run "#{options} #{escaped_doc} #{escaped_out}/#{escaped_basename}.pdf", [], {}
       end
     end

data/lib/docsplit/text_extractor.rb CHANGED Viewed

@@ -66,7 +66,7 @@ module Docsplit
           escaped_tiff = ESCAPE[tiff]
           file = "#{base_path}_#{page}"
           run "MAGICK_TMPDIR=#{tempdir} OMP_NUM_THREADS=2 gm convert -despeckle +adjoin #{MEMORY_ARGS} #{OCR_FLAGS} #{escaped_pdf}[#{page - 1}] #{escaped_tiff} 2>&1"
-          run "tesseract #{escaped_tiff} #{ESCAPE[file]} -l eng 2>&1"
+          run "tesseract #{escaped_tiff} #{ESCAPE[file]} -l #{@language} 2>&1"
           clean_text(file + '.txt') if @clean_ocr
           FileUtils.remove_entry_secure tiff
         end
@@ -74,7 +74,7 @@ module Docsplit
         tiff = "#{tempdir}/#{@pdf_name}.tif"
         escaped_tiff = ESCAPE[tiff]
         run "MAGICK_TMPDIR=#{tempdir} OMP_NUM_THREADS=2 gm convert -despeckle #{MEMORY_ARGS} #{OCR_FLAGS} #{escaped_pdf} #{escaped_tiff} 2>&1"
-        run "tesseract #{escaped_tiff} #{base_path} -l eng 2>&1"
+        run "tesseract #{escaped_tiff} #{base_path} -l #{@language} 2>&1"
         clean_text(base_path + '.txt') if @clean_ocr
       end
     ensure
@@ -122,6 +122,7 @@ module Docsplit
       @force_ocr  = options[:ocr] == true
       @forbid_ocr = options[:ocr] == false
       @clean_ocr  = !(options[:clean] == false)
+      @language   = options[:language] || 'eng'
     end
   end

data/vendor/conf/document-formats.js CHANGED Viewed

@@ -1,6 +1,3 @@
-//
-// JODConverter Document Formats Configuration
-//
 [
   {
     "name": "Portable Document Format",

data/vendor/jodconverter/jodconverter-core-3.0-beta-4.jar ADDED Viewed

Binary file

data/vendor/jodconverter/json-20090211.jar ADDED Viewed

Binary file

data/vendor/jodconverter/juh-3.2.1.jar ADDED Viewed

Binary file

data/vendor/jodconverter/jurt-3.2.1.jar ADDED Viewed

Binary file

data/vendor/jodconverter/ridl-3.2.1.jar ADDED Viewed

Binary file

data/vendor/jodconverter/unoil-3.2.1.jar ADDED Viewed

Binary file

metadata CHANGED Viewed

@@ -1,22 +1,23 @@
 --- !ruby/object:Gem::Specification
 name: docsplit
 version: !ruby/object:Gem::Version
-  hash: 7
-  prerelease:
+  prerelease: false
   segments:
   - 0
   - 6
-  - 0
-  version: 0.6.0
+  - 1
+  version: 0.6.1
 platform: ruby
 authors:
 - Jeremy Ashkenas
 - Samuel Clay
+- Ted Han
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2011-09-13 00:00:00 Z
+date: 2011-11-18 00:00:00 -06:00
+default_executable:
 dependencies: []
 description: "    Docsplit is a command-line utility and Ruby library for splitting apart\n    documents into their component parts: searchable UTF-8 plain text, page\n    images or thumbnails in any format, PDFs, single pages, and document\n    metadata (title, author, number of pages...)\n"
@@ -40,16 +41,17 @@ files:
 - vendor/conf/document-formats.js
 - vendor/jodconverter/commons-cli-1.1.jar
 - vendor/jodconverter/commons-io-1.4.jar
-- vendor/jodconverter/jodconverter-core-3.0-beta-3.jar
-- vendor/jodconverter/json-20080701.jar
-- vendor/jodconverter/juh-3.1.0.jar
-- vendor/jodconverter/jurt-3.1.0.jar
-- vendor/jodconverter/ridl-3.1.0.jar
-- vendor/jodconverter/unoil-3.1.0.jar
+- vendor/jodconverter/jodconverter-core-3.0-beta-4.jar
+- vendor/jodconverter/json-20090211.jar
+- vendor/jodconverter/juh-3.2.1.jar
+- vendor/jodconverter/jurt-3.2.1.jar
+- vendor/jodconverter/ridl-3.2.1.jar
+- vendor/jodconverter/unoil-3.2.1.jar
 - vendor/logging.properties
 - docsplit.gemspec
 - LICENSE
 - README
+has_rdoc: true
 homepage: http://documentcloud.github.com/docsplit/
 licenses: []
@@ -59,27 +61,23 @@ rdoc_options: []
 require_paths:
 - lib
 required_ruby_version: !ruby/object:Gem::Requirement
-  none: false
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
-      hash: 3
       segments:
       - 0
       version: "0"
 required_rubygems_version: !ruby/object:Gem::Requirement
-  none: false
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
-      hash: 3
       segments:
       - 0
       version: "0"
 requirements: []
 rubyforge_project: docsplit
-rubygems_version: 1.7.2
+rubygems_version: 1.3.6
 signing_key:
 specification_version: 3
 summary: Break Apart Documents into Images, Text, Pages and PDFs

data/vendor/jodconverter/jodconverter-core-3.0-beta-3.jar DELETED Viewed

Binary file

data/vendor/jodconverter/json-20080701.jar DELETED Viewed

Binary file

data/vendor/jodconverter/juh-3.1.0.jar DELETED Viewed

Binary file

data/vendor/jodconverter/jurt-3.1.0.jar DELETED Viewed

Binary file

data/vendor/jodconverter/ridl-3.1.0.jar DELETED Viewed

Binary file

data/vendor/jodconverter/unoil-3.1.0.jar DELETED Viewed

Binary file