RubyGems - act_as_page_extractor - Versions diffs - 0.6.3 → 0.7.0 - Mend

act_as_page_extractor 0.6.3 → 0.7.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (43) hide show

checksums.yaml +4 -4
data/.github/workflows/coverage.yml +32 -0
data/.gitignore +1 -0
data/Aptfile.sh +55 -0
data/CHANGELOG.md +67 -0
data/Gemfile +4 -2
data/Gemfile.lock +13 -9
data/README.md +27 -32
data/act_as_page_extractor.gemspec +4 -3
data/lib/act_as_page_extractor/modules/extracting.rb +20 -14
data/lib/act_as_page_extractor/modules/interface.rb +1 -1
data/lib/act_as_page_extractor/modules/tools.rb +14 -4
data/lib/act_as_page_extractor/modules/unzipping.rb +14 -0
data/lib/act_as_page_extractor/modules/validating.rb +15 -9
data/lib/act_as_page_extractor/version.rb +1 -1
data/lib/act_as_page_extractor.rb +27 -17
data/lib/generators/act_as_page_extractor/templates/add_page_extractor_fields_to_documents.rb.erb +1 -0
data/spec/act_as_page_extractor_spec.rb +58 -21
data/spec/spec_helper.rb +1 -1
data/spec/support/models.rb +11 -2
data/test/Oscar_Wilde_The_Happy_Prince_en.doc +0 -0
data/test/Oscar_Wilde_The_Happy_Prince_en.docx +0 -0
data/test/Oscar_Wilde_The_Happy_Prince_en.docx.7z +0 -0
data/test/Oscar_Wilde_The_Happy_Prince_en.docx.rar +0 -0
data/test/Oscar_Wilde_The_Happy_Prince_en.docx.zip +0 -0
data/test/Oscar_Wilde_The_Happy_Prince_en.html +395 -0
data/test/Oscar_Wilde_The_Happy_Prince_en.odt +0 -0
data/test/Oscar_Wilde_The_Happy_Prince_en.pdf +0 -0
data/test/Oscar_Wilde_The_Happy_Prince_en.rtf +257 -0
data/test/Oscar_Wilde_The_Happy_Prince_en.txt +79 -0
data/test/Oscar_Wilde_The_Happy_Prince_en.wrong +0 -0
metadata +36 -33
data/test/test-doc-3-pages.doc +0 -0
data/test/test-doc-3-pages.docx +0 -0
data/test/test-doc-3-pages.docx.7z +0 -0
data/test/test-doc-3-pages.docx.rar +0 -0
data/test/test-doc-3-pages.docx.zip +0 -0
data/test/test-doc-3-pages.html +0 -279
data/test/test-doc-3-pages.odt +0 -0
data/test/test-doc-3-pages.pdf +0 -0
data/test/test-doc-3-pages.rtf +0 -339
data/test/test-doc-3-pages.txt +0 -125
data/test/test-doc-3-pages.wrong +0 -0

data/spec/act_as_page_extractor_spec.rb CHANGED Viewed

@@ -4,42 +4,79 @@ require 'act_as_page_extractor'
 describe ActAsPageExtractor do
   context 'correct extraction' do
     [
-      'test-doc-3-pages.docx',
-      'test-doc-3-pages.doc',
-      'test-doc-3-pages.pdf',
-      'test-doc-3-pages.rtf',
-      'test-doc-3-pages.odt',
-      'test-doc-3-pages.html',
-      'test-doc-3-pages.txt',
-      'test-doc-3-pages.docx.zip',
-      'test-doc-3-pages.docx.rar',
-      'test-doc-3-pages.docx.7z'
+      'Oscar_Wilde_The_Happy_Prince_en.docx',
+      'Oscar_Wilde_The_Happy_Prince_en.doc',
+      'Oscar_Wilde_The_Happy_Prince_en.pdf',
+      'Oscar_Wilde_The_Happy_Prince_en.rtf',
+      'Oscar_Wilde_The_Happy_Prince_en.odt',
+      'Oscar_Wilde_The_Happy_Prince_en.html',
+      'Oscar_Wilde_The_Happy_Prince_en.txt',
+      'Oscar_Wilde_The_Happy_Prince_en.docx.zip',
+      'Oscar_Wilde_The_Happy_Prince_en.docx.rar',
+      'Oscar_Wilde_The_Happy_Prince_en.docx.7z'
     ].each do |document|
-      it "extraction valid document #{document}" do
+      it "extracts valid document #{document}" do
         book = Book.new({doc_path: document})
         allow(Book).to receive_message_chain('where') { [book] }
         ActAsPageExtractor.start_extraction
         expect(book.page_extraction_state).to eq ActAsPageExtractor::EXTRACTING_STATES[:extracted]
-        expect(ExtractedPage.array.count).to eq 3
-        expect(ExtractedPage.array[0][:page]).to match /require \'act_as_page_extractor\/modules\/interface\'/
+        expect(ExtractedPage.array.count).to eq 4
+        expect(ExtractedPage.array[0][:page]).to match /on a tall column, stood the statue of the Happy Prince/
         unless document.match /pdf/
           expect(book.pdf_path).to match /pdf/
           expect(book.remove_files.count).to eq 1
+          expect(book.pages_extraction_errors).to be_empty
         end
         expect(ActAsPageExtractor.statistics).to include(supported_documents:  1)
       end
     end
   end
-  context 'incorrect extraction' do
-    [
-      'test-doc-3-pages.wrong',
-    ].each do |document|
-      it "extraction invalid document #{document}" do
-        book = Book.new({doc_path: document})
-        allow(Book).to receive_message_chain('where') { [book] }
+  describe 'errors processing' do
+    let(:book) { Book.new({doc_path: document}) }
+    before do
+      allow(Book).to receive_message_chain('where') { [book] }
+    end
+    context 'when invalid doctype' do
+      let(:document) { 'Oscar_Wilde_The_Happy_Prince_en.wrong' }
+      it "logs invalid doctype" do
+        ActAsPageExtractor.start_extraction
+        expect(book.page_extraction_state).to eq 'error_doctype'
+        expect(book.pages_extraction_errors).to match('error_doctype')
+      end
+    end
+    context 'with extraction timeout' do
+      let(:error_msg) { 'execution expired' }
+      let(:document) { 'Oscar_Wilde_The_Happy_Prince_en.docx' }
+      before do
+        allow(Docsplit).to receive(:extract_pdf).and_raise(Timeout::Error.new(error_msg))
+      end
+      it "logs timeout error" do
+        ActAsPageExtractor.start_extraction
+        expect(book.page_extraction_state).to eq 'error_extraction'
+        expect(book.pages_extraction_errors).to match(error_msg)
+      end
+    end
+    context 'when Docsplit returns failure' do
+      let(:error_msg) { 'Unknown Docsplit error' }
+      let(:document) { 'Oscar_Wilde_The_Happy_Prince_en.docx' }
+      before do
+        allow(Docsplit).to receive(:extract_pdf).and_raise(Timeout::Error.new(error_msg))
+        allow(Docsplit).to receive(:extract_text).and_raise(Timeout::Error.new(error_msg))
+      end
+      it "logs Docsplit error" do
         ActAsPageExtractor.start_extraction
-        expect(book.page_extraction_state).to eq ActAsPageExtractor::EXTRACTING_STATES[:'error.extraction']
+        expect(book.page_extraction_state).to eq 'error_extraction'
+        expect(book.pages_extraction_errors).to match(error_msg)
       end
     end
   end

data/spec/spec_helper.rb CHANGED Viewed

@@ -3,7 +3,7 @@ unless ENV['SKIP_COVERAGE']
   SimpleCov.start 'rails' do
     add_filter 'vendor'
   end
-  SimpleCov.minimum_coverage 100
+  SimpleCov.minimum_coverage 98
 end
 require 'rspec'

data/spec/support/models.rb CHANGED Viewed

@@ -14,7 +14,8 @@ class Book
                 :page_extraction_state,
                 :page_extraction_pages,
                 :page_extraction_doctype,
-                :page_extraction_filesize
+                :page_extraction_filesize,
+                :pages_extraction_errors
   def self.before_create &block
     yield
@@ -35,6 +36,7 @@ class Book
     filename:          :filename, # CarrierWave class with 'filename.url' method
     document_id:       :document_id,
     additional_fields: [:category_id, :user_id],
+    root_folder:       Dir.pwd.to_s,
     file_storage:      "#{Dir.pwd}/test/",
     pdf_storage:       "#{Dir.pwd}/test/uploads/extracted/pdf"
   }
@@ -44,6 +46,7 @@ class Book
     @id = @category_id = @user_id = nil
     @page_extraction_state = @page_extraction_pages = nil
     @page_extraction_doctype = @page_extraction_filesize = nil
+    @pages_extraction_errors = ''
     ExtractedPage.cleanup
   end
@@ -62,7 +65,13 @@ class Book
   def update params
     params.each do |key, value|
-      instance_eval("self.#{key} = #{value.class == String ? '\'' + value + '\'': value }")
+      if value.nil?
+        instance_eval("self.#{key} = nil")
+      elsif value.class == String
+        instance_eval("self.#{key} = \"#{value}\"")
+      else
+        instance_eval("self.#{key} = #{value}")
+      end
     end
   end
 end

data/test/Oscar_Wilde_The_Happy_Prince_en.doc ADDED Viewed

Binary file

data/test/Oscar_Wilde_The_Happy_Prince_en.docx ADDED Viewed

Binary file

data/test/Oscar_Wilde_The_Happy_Prince_en.docx.7z ADDED Viewed

Binary file

data/test/Oscar_Wilde_The_Happy_Prince_en.docx.rar ADDED Viewed

Binary file

data/test/Oscar_Wilde_The_Happy_Prince_en.docx.zip ADDED Viewed

Binary file