RubyGems - docsplit - Versions diffs - 0.6.0 → 0.6.1 - Mend

docsplit 0.6.0 → 0.6.1

Files changed (17) hide show

data/docsplit.gemspec +3 -3
data/lib/docsplit.rb +8 -5
data/lib/docsplit/text_extractor.rb +3 -2
data/vendor/conf/document-formats.js +0 -3
data/vendor/jodconverter/jodconverter-core-3.0-beta-4.jar +0 -0
data/vendor/jodconverter/json-20090211.jar +0 -0
data/vendor/jodconverter/juh-3.2.1.jar +0 -0
data/vendor/jodconverter/jurt-3.2.1.jar +0 -0
data/vendor/jodconverter/ridl-3.2.1.jar +0 -0
data/vendor/jodconverter/unoil-3.2.1.jar +0 -0
metadata +14 -16
data/vendor/jodconverter/jodconverter-core-3.0-beta-3.jar +0 -0
data/vendor/jodconverter/json-20080701.jar +0 -0
data/vendor/jodconverter/juh-3.1.0.jar +0 -0
data/vendor/jodconverter/jurt-3.1.0.jar +0 -0
data/vendor/jodconverter/ridl-3.1.0.jar +0 -0
data/vendor/jodconverter/unoil-3.1.0.jar +0 -0

data/docsplit.gemspec CHANGED Viewed

@@ -1,7 +1,7 @@
 Gem::Specification.new do |s|
   s.name      = 'docsplit'
-  s.version   = '0.6.0'         # Keep version in sync with docsplit.rb
-  s.date      = '2011-09-13'
+  s.version   = '0.6.1'         # Keep version in sync with docsplit.rb
+  s.date      = '2011-11-18'
   s.homepage    = "http://documentcloud.github.com/docsplit/"
   s.summary     = "Break Apart Documents into Images, Text, Pages and PDFs"
@@ -12,7 +12,7 @@ Gem::Specification.new do |s|
     metadata (title, author, number of pages...)
   EOS
-  s.authors           = ['Jeremy Ashkenas', 'Samuel Clay']
+  s.authors           = ['Jeremy Ashkenas', 'Samuel Clay', 'Ted Han']
   s.email             = 'jeremy@documentcloud.org'
   s.rubyforge_project = 'docsplit'

data/lib/docsplit.rb CHANGED Viewed

@@ -1,7 +1,7 @@
 # The Docsplit module delegates to the Java PDF extractors.
 module Docsplit
-  VERSION       = '0.6.0' # Keep in sync with gemspec.
+  VERSION       = '0.6.1' # Keep in sync with gemspec.
   ROOT          = File.expand_path(File.dirname(__FILE__) + '/..')
@@ -11,11 +11,14 @@ module Docsplit
   HEADLESS      = "-Djava.awt.headless=true"
-  OFFICE        = RUBY_PLATFORM.match(/darwin/i) ? '' : '-Doffice.home=/usr/lib/openoffice'
+  office ||= "/usr/lib/openoffice" if File.exists? '/usr/lib/openoffice'
+  office ||= "/usr/lib/libreoffice" if File.exists? '/usr/lib/libreoffice'
+  OFFICE        = RUBY_PLATFORM.match(/darwin/i) ? '' : "-Doffice.home=#{office}"
   METADATA_KEYS = [:author, :date, :creator, :keywords, :producer, :subject, :title, :length]
-  GM_FORMATS    = [:png, :gif, :jpg, :jpeg, :tif, :tiff, :bmp, :pnm, :ppm, :svg, :eps]
+  GM_FORMATS    = ["image/gif", "image/jpeg", "image/png", "image/x-ms-bmp", "image/svg+xml", "image/tiff", "image/x-portable-bitmap", "application/postscript", "image/x-portable-pixmap"]
   DEPENDENCIES  = {:java => false, :gm => false, :pdftotext => false, :pdftk => false, :tesseract => false}
@@ -65,10 +68,10 @@ module Docsplit
       basename = File.basename(doc, ext)
       escaped_doc, escaped_out, escaped_basename = [doc, out, basename].map(&ESCAPE)
-      if ext.length > 0 && GM_FORMATS.include?(ext.sub(/^\./, '').downcase.to_sym)
+      if GM_FORMATS.include?(`file -b --mime #{doc}`.strip.split(/[:;]\s+/)[0])
         `gm convert #{escaped_doc} #{escaped_out}/#{escaped_basename}.pdf`
       else
-        options = "-jar #{ROOT}/vendor/jodconverter/jodconverter-core-3.0-beta-3.jar -r #{ROOT}/vendor/conf/document-formats.js"
+        options = "-jar #{ROOT}/vendor/jodconverter/jodconverter-core-3.0-beta-4.jar -r #{ROOT}/vendor/conf/document-formats.js"
         run "#{options} #{escaped_doc} #{escaped_out}/#{escaped_basename}.pdf", [], {}
       end
     end

data/lib/docsplit/text_extractor.rb CHANGED Viewed

@@ -66,7 +66,7 @@ module Docsplit
           escaped_tiff = ESCAPE[tiff]
           file = "#{base_path}_#{page}"
           run "MAGICK_TMPDIR=#{tempdir} OMP_NUM_THREADS=2 gm convert -despeckle +adjoin #{MEMORY_ARGS} #{OCR_FLAGS} #{escaped_pdf}[#{page - 1}] #{escaped_tiff} 2>&1"
-          run "tesseract #{escaped_tiff} #{ESCAPE[file]} -l eng 2>&1"
+          run "tesseract #{escaped_tiff} #{ESCAPE[file]} -l #{@language} 2>&1"
           clean_text(file + '.txt') if @clean_ocr
           FileUtils.remove_entry_secure tiff
         end
@@ -74,7 +74,7 @@ module Docsplit
         tiff = "#{tempdir}/#{@pdf_name}.tif"
         escaped_tiff = ESCAPE[tiff]
         run "MAGICK_TMPDIR=#{tempdir} OMP_NUM_THREADS=2 gm convert -despeckle #{MEMORY_ARGS} #{OCR_FLAGS} #{escaped_pdf} #{escaped_tiff} 2>&1"
-        run "tesseract #{escaped_tiff} #{base_path} -l eng 2>&1"
+        run "tesseract #{escaped_tiff} #{base_path} -l #{@language} 2>&1"
         clean_text(base_path + '.txt') if @clean_ocr
       end
     ensure
@@ -122,6 +122,7 @@ module Docsplit
       @force_ocr  = options[:ocr] == true
       @forbid_ocr = options[:ocr] == false
       @clean_ocr  = !(options[:clean] == false)
+      @language   = options[:language] || 'eng'
     end
   end

data/vendor/conf/document-formats.js CHANGED Viewed

@@ -1,6 +1,3 @@
-//
-// JODConverter Document Formats Configuration
-//
 [
   {
     "name": "Portable Document Format",

data/vendor/jodconverter/jodconverter-core-3.0-beta-4.jar ADDED Viewed

Binary file

data/vendor/jodconverter/json-20090211.jar ADDED Viewed

Binary file

data/vendor/jodconverter/juh-3.2.1.jar ADDED Viewed

Binary file

data/vendor/jodconverter/jurt-3.2.1.jar ADDED Viewed

Binary file

data/vendor/jodconverter/ridl-3.2.1.jar ADDED Viewed

Binary file

data/vendor/jodconverter/unoil-3.2.1.jar ADDED Viewed

Binary file

metadata CHANGED Viewed

@@ -1,22 +1,23 @@
 --- !ruby/object:Gem::Specification
 name: docsplit
 version: !ruby/object:Gem::Version
-  hash: 7
-  prerelease:
+  prerelease: false
   segments:
   - 0
   - 6
-  - 0
-  version: 0.6.0
+  - 1
+  version: 0.6.1
 platform: ruby
 authors:
 - Jeremy Ashkenas
 - Samuel Clay
+- Ted Han
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2011-09-13 00:00:00 Z
+date: 2011-11-18 00:00:00 -06:00
+default_executable:
 dependencies: []
 description: "    Docsplit is a command-line utility and Ruby library for splitting apart\n    documents into their component parts: searchable UTF-8 plain text, page\n    images or thumbnails in any format, PDFs, single pages, and document\n    metadata (title, author, number of pages...)\n"
@@ -40,16 +41,17 @@ files:
 - vendor/conf/document-formats.js
 - vendor/jodconverter/commons-cli-1.1.jar
 - vendor/jodconverter/commons-io-1.4.jar
-- vendor/jodconverter/jodconverter-core-3.0-beta-3.jar
-- vendor/jodconverter/json-20080701.jar
-- vendor/jodconverter/juh-3.1.0.jar
-- vendor/jodconverter/jurt-3.1.0.jar
-- vendor/jodconverter/ridl-3.1.0.jar
-- vendor/jodconverter/unoil-3.1.0.jar
+- vendor/jodconverter/jodconverter-core-3.0-beta-4.jar
+- vendor/jodconverter/json-20090211.jar
+- vendor/jodconverter/juh-3.2.1.jar
+- vendor/jodconverter/jurt-3.2.1.jar
+- vendor/jodconverter/ridl-3.2.1.jar
+- vendor/jodconverter/unoil-3.2.1.jar
 - vendor/logging.properties
 - docsplit.gemspec
 - LICENSE
 - README
+has_rdoc: true
 homepage: http://documentcloud.github.com/docsplit/
 licenses: []
@@ -59,27 +61,23 @@ rdoc_options: []
 require_paths:
 - lib
 required_ruby_version: !ruby/object:Gem::Requirement
-  none: false
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
-      hash: 3
       segments:
       - 0
       version: "0"
 required_rubygems_version: !ruby/object:Gem::Requirement
-  none: false
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
-      hash: 3
       segments:
       - 0
       version: "0"
 requirements: []
 rubyforge_project: docsplit
-rubygems_version: 1.7.2
+rubygems_version: 1.3.6
 signing_key:
 specification_version: 3
 summary: Break Apart Documents into Images, Text, Pages and PDFs

data/vendor/jodconverter/jodconverter-core-3.0-beta-3.jar DELETED Viewed

Binary file

data/vendor/jodconverter/json-20080701.jar DELETED Viewed

Binary file

data/vendor/jodconverter/juh-3.1.0.jar DELETED Viewed

Binary file

data/vendor/jodconverter/jurt-3.1.0.jar DELETED Viewed

Binary file

data/vendor/jodconverter/ridl-3.1.0.jar DELETED Viewed

Binary file

data/vendor/jodconverter/unoil-3.1.0.jar DELETED Viewed

Binary file